{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.0,
  "eval_steps": 500,
  "global_step": 80536,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 4.966722956193504e-05,
      "grad_norm": 3.921875,
      "learning_rate": 0.0008,
      "loss": 3.0588,
      "step": 1
    },
    {
      "epoch": 0.0004966722956193504,
      "grad_norm": 1.3125,
      "learning_rate": 0.0007999642395947154,
      "loss": 2.3153,
      "step": 10
    },
    {
      "epoch": 0.0009933445912387007,
      "grad_norm": 0.53125,
      "learning_rate": 0.0007999245058110659,
      "loss": 1.8684,
      "step": 20
    },
    {
      "epoch": 0.001490016886858051,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0007998847720274163,
      "loss": 1.8397,
      "step": 30
    },
    {
      "epoch": 0.0019866891824774015,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007998450382437668,
      "loss": 1.7934,
      "step": 40
    },
    {
      "epoch": 0.0024833614780967518,
      "grad_norm": 1.09375,
      "learning_rate": 0.0007998053044601173,
      "loss": 1.7761,
      "step": 50
    },
    {
      "epoch": 0.002980033773716102,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0007997655706764677,
      "loss": 1.7596,
      "step": 60
    },
    {
      "epoch": 0.0034767060693354523,
      "grad_norm": 0.8671875,
      "learning_rate": 0.0007997258368928181,
      "loss": 1.7166,
      "step": 70
    },
    {
      "epoch": 0.003973378364954803,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0007996861031091686,
      "loss": 1.6598,
      "step": 80
    },
    {
      "epoch": 0.004470050660574153,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0007996463693255191,
      "loss": 1.6145,
      "step": 90
    },
    {
      "epoch": 0.0049667229561935035,
      "grad_norm": 0.53125,
      "learning_rate": 0.0007996066355418695,
      "loss": 1.5857,
      "step": 100
    },
    {
      "epoch": 0.005463395251812854,
      "grad_norm": 0.40625,
      "learning_rate": 0.00079956690175822,
      "loss": 1.5669,
      "step": 110
    },
    {
      "epoch": 0.005960067547432204,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0007995271679745704,
      "loss": 1.5253,
      "step": 120
    },
    {
      "epoch": 0.006456739843051554,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0007994874341909208,
      "loss": 1.5324,
      "step": 130
    },
    {
      "epoch": 0.006953412138670905,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007994477004072714,
      "loss": 1.4808,
      "step": 140
    },
    {
      "epoch": 0.007450084434290256,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0007994079666236218,
      "loss": 1.4696,
      "step": 150
    },
    {
      "epoch": 0.007946756729909606,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0007993682328399723,
      "loss": 1.45,
      "step": 160
    },
    {
      "epoch": 0.008443429025528956,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0007993284990563226,
      "loss": 1.4663,
      "step": 170
    },
    {
      "epoch": 0.008940101321148307,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0007992887652726731,
      "loss": 1.4412,
      "step": 180
    },
    {
      "epoch": 0.009436773616767657,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0007992490314890237,
      "loss": 1.3908,
      "step": 190
    },
    {
      "epoch": 0.009933445912387007,
      "grad_norm": 0.51953125,
      "learning_rate": 0.000799209297705374,
      "loss": 1.3938,
      "step": 200
    },
    {
      "epoch": 0.010430118208006357,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0007991695639217245,
      "loss": 1.3474,
      "step": 210
    },
    {
      "epoch": 0.010926790503625708,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0007991298301380749,
      "loss": 1.3319,
      "step": 220
    },
    {
      "epoch": 0.011423462799245058,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0007990900963544253,
      "loss": 1.3428,
      "step": 230
    },
    {
      "epoch": 0.011920135094864408,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0007990503625707759,
      "loss": 1.3505,
      "step": 240
    },
    {
      "epoch": 0.012416807390483758,
      "grad_norm": 0.53125,
      "learning_rate": 0.0007990106287871263,
      "loss": 1.3445,
      "step": 250
    },
    {
      "epoch": 0.012913479686103109,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0007989708950034767,
      "loss": 1.3059,
      "step": 260
    },
    {
      "epoch": 0.013410151981722459,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0007989311612198272,
      "loss": 1.3184,
      "step": 270
    },
    {
      "epoch": 0.01390682427734181,
      "grad_norm": 0.359375,
      "learning_rate": 0.0007988914274361776,
      "loss": 1.2753,
      "step": 280
    },
    {
      "epoch": 0.01440349657296116,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0007988516936525282,
      "loss": 1.2823,
      "step": 290
    },
    {
      "epoch": 0.014900168868580511,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0007988119598688786,
      "loss": 1.3007,
      "step": 300
    },
    {
      "epoch": 0.015396841164199862,
      "grad_norm": 0.4296875,
      "learning_rate": 0.000798772226085229,
      "loss": 1.2959,
      "step": 310
    },
    {
      "epoch": 0.015893513459819212,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0007987324923015795,
      "loss": 1.2481,
      "step": 320
    },
    {
      "epoch": 0.01639018575543856,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0007986927585179299,
      "loss": 1.2824,
      "step": 330
    },
    {
      "epoch": 0.016886858051057912,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0007986530247342804,
      "loss": 1.242,
      "step": 340
    },
    {
      "epoch": 0.01738353034667726,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0007986132909506309,
      "loss": 1.2588,
      "step": 350
    },
    {
      "epoch": 0.017880202642296613,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0007985735571669812,
      "loss": 1.2736,
      "step": 360
    },
    {
      "epoch": 0.01837687493791596,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0007985338233833317,
      "loss": 1.2348,
      "step": 370
    },
    {
      "epoch": 0.018873547233535314,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0007984940895996822,
      "loss": 1.2293,
      "step": 380
    },
    {
      "epoch": 0.019370219529154662,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0007984543558160325,
      "loss": 1.1832,
      "step": 390
    },
    {
      "epoch": 0.019866891824774014,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0007984146220323831,
      "loss": 1.2007,
      "step": 400
    },
    {
      "epoch": 0.020363564120393366,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0007983748882487336,
      "loss": 1.2085,
      "step": 410
    },
    {
      "epoch": 0.020860236416012715,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0007983351544650839,
      "loss": 1.2127,
      "step": 420
    },
    {
      "epoch": 0.021356908711632067,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0007982954206814344,
      "loss": 1.1983,
      "step": 430
    },
    {
      "epoch": 0.021853581007251415,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0007982556868977848,
      "loss": 1.2332,
      "step": 440
    },
    {
      "epoch": 0.022350253302870767,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0007982159531141354,
      "loss": 1.1835,
      "step": 450
    },
    {
      "epoch": 0.022846925598490116,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0007981762193304858,
      "loss": 1.21,
      "step": 460
    },
    {
      "epoch": 0.023343597894109468,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0007981364855468362,
      "loss": 1.1797,
      "step": 470
    },
    {
      "epoch": 0.023840270189728816,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0007980967517631867,
      "loss": 1.1599,
      "step": 480
    },
    {
      "epoch": 0.024336942485348168,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0007980570179795371,
      "loss": 1.1898,
      "step": 490
    },
    {
      "epoch": 0.024833614780967517,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0007980172841958876,
      "loss": 1.1622,
      "step": 500
    },
    {
      "epoch": 0.02533028707658687,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0007979775504122381,
      "loss": 1.182,
      "step": 510
    },
    {
      "epoch": 0.025826959372206217,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0007979378166285885,
      "loss": 1.1502,
      "step": 520
    },
    {
      "epoch": 0.02632363166782557,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0007978980828449389,
      "loss": 1.1264,
      "step": 530
    },
    {
      "epoch": 0.026820303963444918,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0007978583490612895,
      "loss": 1.1711,
      "step": 540
    },
    {
      "epoch": 0.02731697625906427,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0007978186152776398,
      "loss": 1.1233,
      "step": 550
    },
    {
      "epoch": 0.02781364855468362,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0007977788814939903,
      "loss": 1.1435,
      "step": 560
    },
    {
      "epoch": 0.02831032085030297,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0007977391477103408,
      "loss": 1.1424,
      "step": 570
    },
    {
      "epoch": 0.02880699314592232,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0007976994139266911,
      "loss": 1.1642,
      "step": 580
    },
    {
      "epoch": 0.02930366544154167,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0007976596801430416,
      "loss": 1.11,
      "step": 590
    },
    {
      "epoch": 0.029800337737161023,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0007976199463593922,
      "loss": 1.152,
      "step": 600
    },
    {
      "epoch": 0.03029701003278037,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0007975802125757426,
      "loss": 1.1054,
      "step": 610
    },
    {
      "epoch": 0.030793682328399723,
      "grad_norm": 0.369140625,
      "learning_rate": 0.000797540478792093,
      "loss": 1.1078,
      "step": 620
    },
    {
      "epoch": 0.03129035462401907,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0007975007450084434,
      "loss": 1.1475,
      "step": 630
    },
    {
      "epoch": 0.031787026919638424,
      "grad_norm": 0.296875,
      "learning_rate": 0.000797461011224794,
      "loss": 1.1248,
      "step": 640
    },
    {
      "epoch": 0.032283699215257776,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0007974212774411444,
      "loss": 1.1052,
      "step": 650
    },
    {
      "epoch": 0.03278037151087712,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0007973815436574948,
      "loss": 1.1349,
      "step": 660
    },
    {
      "epoch": 0.03327704380649647,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0007973418098738453,
      "loss": 1.1056,
      "step": 670
    },
    {
      "epoch": 0.033773716102115825,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0007973020760901957,
      "loss": 1.1263,
      "step": 680
    },
    {
      "epoch": 0.03427038839773518,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0007972623423065461,
      "loss": 1.1334,
      "step": 690
    },
    {
      "epoch": 0.03476706069335452,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0007972226085228967,
      "loss": 1.1171,
      "step": 700
    },
    {
      "epoch": 0.035263732988973874,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0007971828747392471,
      "loss": 1.1007,
      "step": 710
    },
    {
      "epoch": 0.035760405284593226,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0007971431409555975,
      "loss": 1.1092,
      "step": 720
    },
    {
      "epoch": 0.03625707758021258,
      "grad_norm": 0.35546875,
      "learning_rate": 0.000797103407171948,
      "loss": 1.1299,
      "step": 730
    },
    {
      "epoch": 0.03675374987583192,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0007970636733882984,
      "loss": 1.1215,
      "step": 740
    },
    {
      "epoch": 0.037250422171451275,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0007970239396046489,
      "loss": 1.0959,
      "step": 750
    },
    {
      "epoch": 0.03774709446707063,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0007969842058209994,
      "loss": 1.0947,
      "step": 760
    },
    {
      "epoch": 0.03824376676268998,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0007969444720373498,
      "loss": 1.0743,
      "step": 770
    },
    {
      "epoch": 0.038740439058309324,
      "grad_norm": 0.3125,
      "learning_rate": 0.0007969047382537002,
      "loss": 1.0936,
      "step": 780
    },
    {
      "epoch": 0.039237111353928676,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0007968650044700507,
      "loss": 1.0967,
      "step": 790
    },
    {
      "epoch": 0.03973378364954803,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0007968252706864012,
      "loss": 1.0531,
      "step": 800
    },
    {
      "epoch": 0.04023045594516738,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0007967855369027516,
      "loss": 1.0668,
      "step": 810
    },
    {
      "epoch": 0.04072712824078673,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000796745803119102,
      "loss": 1.0908,
      "step": 820
    },
    {
      "epoch": 0.04122380053640608,
      "grad_norm": 0.265625,
      "learning_rate": 0.0007967060693354525,
      "loss": 1.0599,
      "step": 830
    },
    {
      "epoch": 0.04172047283202543,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0007966663355518029,
      "loss": 1.0601,
      "step": 840
    },
    {
      "epoch": 0.04221714512764478,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0007966266017681534,
      "loss": 1.0303,
      "step": 850
    },
    {
      "epoch": 0.04271381742326413,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0007965868679845039,
      "loss": 1.0721,
      "step": 860
    },
    {
      "epoch": 0.04321048971888348,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0007965471342008543,
      "loss": 1.0544,
      "step": 870
    },
    {
      "epoch": 0.04370716201450283,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0007965074004172047,
      "loss": 1.0499,
      "step": 880
    },
    {
      "epoch": 0.04420383431012218,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0007964676666335552,
      "loss": 1.0578,
      "step": 890
    },
    {
      "epoch": 0.044700506605741534,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0007964279328499057,
      "loss": 1.103,
      "step": 900
    },
    {
      "epoch": 0.04519717890136088,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0007963881990662561,
      "loss": 1.0236,
      "step": 910
    },
    {
      "epoch": 0.04569385119698023,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0007963484652826066,
      "loss": 1.0282,
      "step": 920
    },
    {
      "epoch": 0.04619052349259958,
      "grad_norm": 0.33984375,
      "learning_rate": 0.000796308731498957,
      "loss": 1.0686,
      "step": 930
    },
    {
      "epoch": 0.046687195788218935,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0007962689977153074,
      "loss": 1.0468,
      "step": 940
    },
    {
      "epoch": 0.04718386808383828,
      "grad_norm": 0.31640625,
      "learning_rate": 0.000796229263931658,
      "loss": 1.0379,
      "step": 950
    },
    {
      "epoch": 0.04768054037945763,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0007961895301480084,
      "loss": 1.0553,
      "step": 960
    },
    {
      "epoch": 0.048177212675076984,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0007961497963643588,
      "loss": 1.0768,
      "step": 970
    },
    {
      "epoch": 0.048673884970696336,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0007961100625807093,
      "loss": 1.0261,
      "step": 980
    },
    {
      "epoch": 0.04917055726631568,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0007960703287970597,
      "loss": 1.0311,
      "step": 990
    },
    {
      "epoch": 0.04966722956193503,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0007960305950134102,
      "loss": 1.0556,
      "step": 1000
    },
    {
      "epoch": 0.050163901857554385,
      "grad_norm": 0.28125,
      "learning_rate": 0.0007959908612297607,
      "loss": 1.034,
      "step": 1010
    },
    {
      "epoch": 0.05066057415317374,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0007959511274461111,
      "loss": 1.0009,
      "step": 1020
    },
    {
      "epoch": 0.05115724644879309,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0007959113936624615,
      "loss": 1.0109,
      "step": 1030
    },
    {
      "epoch": 0.051653918744412435,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0007958716598788119,
      "loss": 1.0085,
      "step": 1040
    },
    {
      "epoch": 0.052150591040031787,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0007958319260951625,
      "loss": 1.0898,
      "step": 1050
    },
    {
      "epoch": 0.05264726333565114,
      "grad_norm": 0.34765625,
      "learning_rate": 0.000795792192311513,
      "loss": 1.0379,
      "step": 1060
    },
    {
      "epoch": 0.05314393563127049,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0007957524585278633,
      "loss": 0.9888,
      "step": 1070
    },
    {
      "epoch": 0.053640607926889836,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0007957127247442138,
      "loss": 0.9989,
      "step": 1080
    },
    {
      "epoch": 0.05413728022250919,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0007956729909605642,
      "loss": 1.046,
      "step": 1090
    },
    {
      "epoch": 0.05463395251812854,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0007956332571769147,
      "loss": 0.9776,
      "step": 1100
    },
    {
      "epoch": 0.05513062481374789,
      "grad_norm": 0.3125,
      "learning_rate": 0.0007955935233932652,
      "loss": 1.0245,
      "step": 1110
    },
    {
      "epoch": 0.05562729710936724,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0007955537896096156,
      "loss": 1.0557,
      "step": 1120
    },
    {
      "epoch": 0.05612396940498659,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000795514055825966,
      "loss": 1.0043,
      "step": 1130
    },
    {
      "epoch": 0.05662064170060594,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0007954743220423165,
      "loss": 0.9955,
      "step": 1140
    },
    {
      "epoch": 0.05711731399622529,
      "grad_norm": 0.328125,
      "learning_rate": 0.000795434588258667,
      "loss": 1.0221,
      "step": 1150
    },
    {
      "epoch": 0.05761398629184464,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0007953948544750174,
      "loss": 0.9994,
      "step": 1160
    },
    {
      "epoch": 0.05811065858746399,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0007953551206913679,
      "loss": 1.031,
      "step": 1170
    },
    {
      "epoch": 0.05860733088308334,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0007953153869077183,
      "loss": 0.9968,
      "step": 1180
    },
    {
      "epoch": 0.059104003178702694,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0007952756531240688,
      "loss": 1.0061,
      "step": 1190
    },
    {
      "epoch": 0.059600675474322046,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0007952359193404193,
      "loss": 1.0162,
      "step": 1200
    },
    {
      "epoch": 0.06009734776994139,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0007951961855567697,
      "loss": 0.9925,
      "step": 1210
    },
    {
      "epoch": 0.06059402006556074,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0007951564517731202,
      "loss": 1.0197,
      "step": 1220
    },
    {
      "epoch": 0.061090692361180095,
      "grad_norm": 0.265625,
      "learning_rate": 0.0007951167179894705,
      "loss": 1.0029,
      "step": 1230
    },
    {
      "epoch": 0.06158736465679945,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000795076984205821,
      "loss": 0.9652,
      "step": 1240
    },
    {
      "epoch": 0.06208403695241879,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0007950372504221716,
      "loss": 1.0034,
      "step": 1250
    },
    {
      "epoch": 0.06258070924803814,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0007949975166385219,
      "loss": 1.0125,
      "step": 1260
    },
    {
      "epoch": 0.0630773815436575,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0007949577828548724,
      "loss": 0.999,
      "step": 1270
    },
    {
      "epoch": 0.06357405383927685,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0007949180490712229,
      "loss": 0.9831,
      "step": 1280
    },
    {
      "epoch": 0.0640707261348962,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0007948783152875732,
      "loss": 0.9889,
      "step": 1290
    },
    {
      "epoch": 0.06456739843051555,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0007948385815039238,
      "loss": 0.9954,
      "step": 1300
    },
    {
      "epoch": 0.06506407072613489,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0007947988477202742,
      "loss": 1.0029,
      "step": 1310
    },
    {
      "epoch": 0.06556074302175424,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0007947591139366246,
      "loss": 0.9666,
      "step": 1320
    },
    {
      "epoch": 0.0660574153173736,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0007947193801529751,
      "loss": 0.9921,
      "step": 1330
    },
    {
      "epoch": 0.06655408761299295,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0007946796463693255,
      "loss": 0.9799,
      "step": 1340
    },
    {
      "epoch": 0.0670507599086123,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0007946399125856761,
      "loss": 1.0026,
      "step": 1350
    },
    {
      "epoch": 0.06754743220423165,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0007946001788020265,
      "loss": 0.9782,
      "step": 1360
    },
    {
      "epoch": 0.068044104499851,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0007945604450183769,
      "loss": 1.0086,
      "step": 1370
    },
    {
      "epoch": 0.06854077679547035,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0007945207112347274,
      "loss": 0.9763,
      "step": 1380
    },
    {
      "epoch": 0.0690374490910897,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0007944809774510778,
      "loss": 1.0011,
      "step": 1390
    },
    {
      "epoch": 0.06953412138670904,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0007944412436674283,
      "loss": 0.9751,
      "step": 1400
    },
    {
      "epoch": 0.0700307936823284,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0007944015098837788,
      "loss": 1.0073,
      "step": 1410
    },
    {
      "epoch": 0.07052746597794775,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0007943617761001291,
      "loss": 0.9551,
      "step": 1420
    },
    {
      "epoch": 0.0710241382735671,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0007943220423164796,
      "loss": 0.9414,
      "step": 1430
    },
    {
      "epoch": 0.07152081056918645,
      "grad_norm": 0.3125,
      "learning_rate": 0.0007942823085328301,
      "loss": 0.9908,
      "step": 1440
    },
    {
      "epoch": 0.0720174828648058,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0007942425747491804,
      "loss": 0.9451,
      "step": 1450
    },
    {
      "epoch": 0.07251415516042516,
      "grad_norm": 0.234375,
      "learning_rate": 0.000794202840965531,
      "loss": 0.9761,
      "step": 1460
    },
    {
      "epoch": 0.07301082745604451,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0007941631071818815,
      "loss": 0.9389,
      "step": 1470
    },
    {
      "epoch": 0.07350749975166385,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0007941233733982319,
      "loss": 0.9704,
      "step": 1480
    },
    {
      "epoch": 0.0740041720472832,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0007940836396145823,
      "loss": 0.9748,
      "step": 1490
    },
    {
      "epoch": 0.07450084434290255,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0007940439058309328,
      "loss": 0.982,
      "step": 1500
    },
    {
      "epoch": 0.0749975166385219,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0007940041720472833,
      "loss": 0.9661,
      "step": 1510
    },
    {
      "epoch": 0.07549418893414125,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0007939644382636337,
      "loss": 0.9424,
      "step": 1520
    },
    {
      "epoch": 0.0759908612297606,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0007939247044799841,
      "loss": 0.9927,
      "step": 1530
    },
    {
      "epoch": 0.07648753352537996,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0007938849706963346,
      "loss": 0.9794,
      "step": 1540
    },
    {
      "epoch": 0.07698420582099931,
      "grad_norm": 0.333984375,
      "learning_rate": 0.000793845236912685,
      "loss": 0.9505,
      "step": 1550
    },
    {
      "epoch": 0.07748087811661865,
      "grad_norm": 0.296875,
      "learning_rate": 0.0007938055031290355,
      "loss": 0.9565,
      "step": 1560
    },
    {
      "epoch": 0.077977550412238,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000793765769345386,
      "loss": 0.9998,
      "step": 1570
    },
    {
      "epoch": 0.07847422270785735,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0007937260355617364,
      "loss": 0.9816,
      "step": 1580
    },
    {
      "epoch": 0.0789708950034767,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0007936863017780868,
      "loss": 0.9523,
      "step": 1590
    },
    {
      "epoch": 0.07946756729909606,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0007936465679944374,
      "loss": 0.9512,
      "step": 1600
    },
    {
      "epoch": 0.07996423959471541,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0007936068342107878,
      "loss": 0.9186,
      "step": 1610
    },
    {
      "epoch": 0.08046091189033476,
      "grad_norm": 0.296875,
      "learning_rate": 0.0007935671004271382,
      "loss": 0.9518,
      "step": 1620
    },
    {
      "epoch": 0.08095758418595411,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0007935273666434887,
      "loss": 0.9269,
      "step": 1630
    },
    {
      "epoch": 0.08145425648157346,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0007934876328598391,
      "loss": 0.9667,
      "step": 1640
    },
    {
      "epoch": 0.0819509287771928,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0007934478990761896,
      "loss": 0.947,
      "step": 1650
    },
    {
      "epoch": 0.08244760107281215,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0007934081652925401,
      "loss": 0.9563,
      "step": 1660
    },
    {
      "epoch": 0.0829442733684315,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0007933684315088905,
      "loss": 0.9397,
      "step": 1670
    },
    {
      "epoch": 0.08344094566405086,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0007933286977252409,
      "loss": 0.965,
      "step": 1680
    },
    {
      "epoch": 0.08393761795967021,
      "grad_norm": 0.25,
      "learning_rate": 0.0007932889639415913,
      "loss": 0.9461,
      "step": 1690
    },
    {
      "epoch": 0.08443429025528956,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0007932492301579419,
      "loss": 0.9537,
      "step": 1700
    },
    {
      "epoch": 0.08493096255090891,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0007932094963742923,
      "loss": 0.9146,
      "step": 1710
    },
    {
      "epoch": 0.08542763484652827,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0007931697625906427,
      "loss": 0.9558,
      "step": 1720
    },
    {
      "epoch": 0.0859243071421476,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0007931300288069932,
      "loss": 0.9614,
      "step": 1730
    },
    {
      "epoch": 0.08642097943776696,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0007930902950233436,
      "loss": 0.9227,
      "step": 1740
    },
    {
      "epoch": 0.08691765173338631,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000793050561239694,
      "loss": 0.9533,
      "step": 1750
    },
    {
      "epoch": 0.08741432402900566,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0007930108274560446,
      "loss": 0.9488,
      "step": 1760
    },
    {
      "epoch": 0.08791099632462501,
      "grad_norm": 0.25390625,
      "learning_rate": 0.000792971093672395,
      "loss": 0.9396,
      "step": 1770
    },
    {
      "epoch": 0.08840766862024436,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0007929313598887454,
      "loss": 0.9199,
      "step": 1780
    },
    {
      "epoch": 0.08890434091586372,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0007928916261050959,
      "loss": 0.9593,
      "step": 1790
    },
    {
      "epoch": 0.08940101321148307,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0007928518923214463,
      "loss": 0.9639,
      "step": 1800
    },
    {
      "epoch": 0.08989768550710242,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0007928121585377968,
      "loss": 0.9267,
      "step": 1810
    },
    {
      "epoch": 0.09039435780272176,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0007927724247541473,
      "loss": 0.9629,
      "step": 1820
    },
    {
      "epoch": 0.09089103009834111,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0007927326909704977,
      "loss": 0.9051,
      "step": 1830
    },
    {
      "epoch": 0.09138770239396046,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0007926929571868481,
      "loss": 0.9445,
      "step": 1840
    },
    {
      "epoch": 0.09188437468957981,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0007926532234031987,
      "loss": 0.9441,
      "step": 1850
    },
    {
      "epoch": 0.09238104698519917,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0007926134896195491,
      "loss": 0.9459,
      "step": 1860
    },
    {
      "epoch": 0.09287771928081852,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0007925737558358995,
      "loss": 0.944,
      "step": 1870
    },
    {
      "epoch": 0.09337439157643787,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.00079253402205225,
      "loss": 0.9664,
      "step": 1880
    },
    {
      "epoch": 0.09387106387205722,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0007924942882686004,
      "loss": 0.9384,
      "step": 1890
    },
    {
      "epoch": 0.09436773616767656,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0007924545544849508,
      "loss": 0.936,
      "step": 1900
    },
    {
      "epoch": 0.09486440846329591,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0007924148207013013,
      "loss": 0.9484,
      "step": 1910
    },
    {
      "epoch": 0.09536108075891526,
      "grad_norm": 0.28125,
      "learning_rate": 0.0007923750869176518,
      "loss": 0.8862,
      "step": 1920
    },
    {
      "epoch": 0.09585775305453462,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0007923353531340023,
      "loss": 0.933,
      "step": 1930
    },
    {
      "epoch": 0.09635442535015397,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0007922956193503526,
      "loss": 0.9179,
      "step": 1940
    },
    {
      "epoch": 0.09685109764577332,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0007922558855667031,
      "loss": 0.9129,
      "step": 1950
    },
    {
      "epoch": 0.09734776994139267,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0007922161517830536,
      "loss": 0.9578,
      "step": 1960
    },
    {
      "epoch": 0.09784444223701202,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000792176417999404,
      "loss": 0.8939,
      "step": 1970
    },
    {
      "epoch": 0.09834111453263136,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0007921366842157545,
      "loss": 0.9061,
      "step": 1980
    },
    {
      "epoch": 0.09883778682825071,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0007920969504321049,
      "loss": 0.9174,
      "step": 1990
    },
    {
      "epoch": 0.09933445912387007,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0007920572166484553,
      "loss": 0.9491,
      "step": 2000
    },
    {
      "epoch": 0.09983113141948942,
      "grad_norm": 0.265625,
      "learning_rate": 0.0007920174828648059,
      "loss": 0.9257,
      "step": 2010
    },
    {
      "epoch": 0.10032780371510877,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0007919777490811563,
      "loss": 0.8943,
      "step": 2020
    },
    {
      "epoch": 0.10082447601072812,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0007919380152975067,
      "loss": 0.9324,
      "step": 2030
    },
    {
      "epoch": 0.10132114830634747,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0007918982815138572,
      "loss": 0.9209,
      "step": 2040
    },
    {
      "epoch": 0.10181782060196683,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0007918585477302076,
      "loss": 0.9143,
      "step": 2050
    },
    {
      "epoch": 0.10231449289758618,
      "grad_norm": 0.28125,
      "learning_rate": 0.0007918188139465581,
      "loss": 0.8881,
      "step": 2060
    },
    {
      "epoch": 0.10281116519320552,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0007917790801629086,
      "loss": 0.9361,
      "step": 2070
    },
    {
      "epoch": 0.10330783748882487,
      "grad_norm": 0.23828125,
      "learning_rate": 0.000791739346379259,
      "loss": 0.8759,
      "step": 2080
    },
    {
      "epoch": 0.10380450978444422,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0007916996125956095,
      "loss": 0.9115,
      "step": 2090
    },
    {
      "epoch": 0.10430118208006357,
      "grad_norm": 0.25,
      "learning_rate": 0.0007916598788119598,
      "loss": 0.9272,
      "step": 2100
    },
    {
      "epoch": 0.10479785437568293,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0007916201450283104,
      "loss": 0.9501,
      "step": 2110
    },
    {
      "epoch": 0.10529452667130228,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0007915804112446609,
      "loss": 0.8966,
      "step": 2120
    },
    {
      "epoch": 0.10579119896692163,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0007915406774610112,
      "loss": 0.9069,
      "step": 2130
    },
    {
      "epoch": 0.10628787126254098,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0007915009436773617,
      "loss": 0.9063,
      "step": 2140
    },
    {
      "epoch": 0.10678454355816032,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0007914612098937123,
      "loss": 0.9479,
      "step": 2150
    },
    {
      "epoch": 0.10728121585377967,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0007914214761100626,
      "loss": 0.8811,
      "step": 2160
    },
    {
      "epoch": 0.10777788814939902,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0007913817423264131,
      "loss": 0.9181,
      "step": 2170
    },
    {
      "epoch": 0.10827456044501838,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0007913420085427635,
      "loss": 0.8811,
      "step": 2180
    },
    {
      "epoch": 0.10877123274063773,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0007913022747591139,
      "loss": 0.8769,
      "step": 2190
    },
    {
      "epoch": 0.10926790503625708,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0007912625409754644,
      "loss": 0.9298,
      "step": 2200
    },
    {
      "epoch": 0.10976457733187643,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0007912228071918149,
      "loss": 0.8929,
      "step": 2210
    },
    {
      "epoch": 0.11026124962749578,
      "grad_norm": 0.296875,
      "learning_rate": 0.0007911830734081653,
      "loss": 0.9101,
      "step": 2220
    },
    {
      "epoch": 0.11075792192311514,
      "grad_norm": 0.234375,
      "learning_rate": 0.0007911433396245158,
      "loss": 0.9398,
      "step": 2230
    },
    {
      "epoch": 0.11125459421873447,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0007911036058408662,
      "loss": 0.9077,
      "step": 2240
    },
    {
      "epoch": 0.11175126651435383,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0007910638720572167,
      "loss": 0.9285,
      "step": 2250
    },
    {
      "epoch": 0.11224793880997318,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0007910241382735672,
      "loss": 0.8824,
      "step": 2260
    },
    {
      "epoch": 0.11274461110559253,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0007909844044899176,
      "loss": 0.8869,
      "step": 2270
    },
    {
      "epoch": 0.11324128340121188,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0007909446707062681,
      "loss": 0.9341,
      "step": 2280
    },
    {
      "epoch": 0.11373795569683123,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0007909049369226184,
      "loss": 0.9054,
      "step": 2290
    },
    {
      "epoch": 0.11423462799245059,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0007908652031389689,
      "loss": 0.91,
      "step": 2300
    },
    {
      "epoch": 0.11473130028806994,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0007908254693553195,
      "loss": 0.9317,
      "step": 2310
    },
    {
      "epoch": 0.11522797258368928,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0007907857355716698,
      "loss": 0.9031,
      "step": 2320
    },
    {
      "epoch": 0.11572464487930863,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0007907460017880203,
      "loss": 0.9089,
      "step": 2330
    },
    {
      "epoch": 0.11622131717492798,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0007907062680043708,
      "loss": 0.9035,
      "step": 2340
    },
    {
      "epoch": 0.11671798947054733,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0007906665342207211,
      "loss": 0.8807,
      "step": 2350
    },
    {
      "epoch": 0.11721466176616668,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0007906268004370717,
      "loss": 0.8563,
      "step": 2360
    },
    {
      "epoch": 0.11771133406178604,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0007905870666534221,
      "loss": 0.8702,
      "step": 2370
    },
    {
      "epoch": 0.11820800635740539,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0007905473328697726,
      "loss": 0.9268,
      "step": 2380
    },
    {
      "epoch": 0.11870467865302474,
      "grad_norm": 0.240234375,
      "learning_rate": 0.000790507599086123,
      "loss": 0.902,
      "step": 2390
    },
    {
      "epoch": 0.11920135094864409,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0007904678653024734,
      "loss": 0.9036,
      "step": 2400
    },
    {
      "epoch": 0.11969802324426343,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000790428131518824,
      "loss": 0.9041,
      "step": 2410
    },
    {
      "epoch": 0.12019469553988278,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0007903883977351744,
      "loss": 0.8601,
      "step": 2420
    },
    {
      "epoch": 0.12069136783550213,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0007903486639515248,
      "loss": 0.8791,
      "step": 2430
    },
    {
      "epoch": 0.12118804013112149,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0007903089301678753,
      "loss": 0.9051,
      "step": 2440
    },
    {
      "epoch": 0.12168471242674084,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0007902691963842257,
      "loss": 0.8775,
      "step": 2450
    },
    {
      "epoch": 0.12218138472236019,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0007902294626005762,
      "loss": 0.8495,
      "step": 2460
    },
    {
      "epoch": 0.12267805701797954,
      "grad_norm": 0.25,
      "learning_rate": 0.0007901897288169267,
      "loss": 0.9162,
      "step": 2470
    },
    {
      "epoch": 0.1231747293135989,
      "grad_norm": 0.259765625,
      "learning_rate": 0.000790149995033277,
      "loss": 0.8772,
      "step": 2480
    },
    {
      "epoch": 0.12367140160921823,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0007901102612496275,
      "loss": 0.8825,
      "step": 2490
    },
    {
      "epoch": 0.12416807390483758,
      "grad_norm": 0.251953125,
      "learning_rate": 0.000790070527465978,
      "loss": 0.9092,
      "step": 2500
    },
    {
      "epoch": 0.12466474620045694,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0007900307936823284,
      "loss": 0.8917,
      "step": 2510
    },
    {
      "epoch": 0.1251614184960763,
      "grad_norm": 0.3125,
      "learning_rate": 0.0007899910598986789,
      "loss": 0.8767,
      "step": 2520
    },
    {
      "epoch": 0.12565809079169563,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0007899513261150294,
      "loss": 0.8803,
      "step": 2530
    },
    {
      "epoch": 0.126154763087315,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0007899115923313798,
      "loss": 0.895,
      "step": 2540
    },
    {
      "epoch": 0.12665143538293433,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0007898718585477302,
      "loss": 0.9083,
      "step": 2550
    },
    {
      "epoch": 0.1271481076785537,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0007898321247640807,
      "loss": 0.8967,
      "step": 2560
    },
    {
      "epoch": 0.12764477997417303,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0007897923909804312,
      "loss": 0.8881,
      "step": 2570
    },
    {
      "epoch": 0.1281414522697924,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0007897526571967816,
      "loss": 0.9021,
      "step": 2580
    },
    {
      "epoch": 0.12863812456541174,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000789712923413132,
      "loss": 0.8832,
      "step": 2590
    },
    {
      "epoch": 0.1291347968610311,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0007896731896294825,
      "loss": 0.9154,
      "step": 2600
    },
    {
      "epoch": 0.12963146915665044,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.000789633455845833,
      "loss": 0.8943,
      "step": 2610
    },
    {
      "epoch": 0.13012814145226978,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0007895937220621834,
      "loss": 0.8884,
      "step": 2620
    },
    {
      "epoch": 0.13062481374788915,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0007895539882785339,
      "loss": 0.8645,
      "step": 2630
    },
    {
      "epoch": 0.13112148604350848,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0007895142544948843,
      "loss": 0.8769,
      "step": 2640
    },
    {
      "epoch": 0.13161815833912785,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0007894745207112347,
      "loss": 0.9108,
      "step": 2650
    },
    {
      "epoch": 0.1321148306347472,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0007894347869275853,
      "loss": 0.8442,
      "step": 2660
    },
    {
      "epoch": 0.13261150293036655,
      "grad_norm": 0.25,
      "learning_rate": 0.0007893950531439357,
      "loss": 0.8799,
      "step": 2670
    },
    {
      "epoch": 0.1331081752259859,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0007893553193602861,
      "loss": 0.9038,
      "step": 2680
    },
    {
      "epoch": 0.13360484752160526,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0007893155855766366,
      "loss": 0.8603,
      "step": 2690
    },
    {
      "epoch": 0.1341015198172246,
      "grad_norm": 0.22265625,
      "learning_rate": 0.000789275851792987,
      "loss": 0.8633,
      "step": 2700
    },
    {
      "epoch": 0.13459819211284393,
      "grad_norm": 0.234375,
      "learning_rate": 0.0007892361180093375,
      "loss": 0.8866,
      "step": 2710
    },
    {
      "epoch": 0.1350948644084633,
      "grad_norm": 0.25,
      "learning_rate": 0.000789196384225688,
      "loss": 0.873,
      "step": 2720
    },
    {
      "epoch": 0.13559153670408264,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0007891566504420384,
      "loss": 0.85,
      "step": 2730
    },
    {
      "epoch": 0.136088208999702,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0007891169166583888,
      "loss": 0.8394,
      "step": 2740
    },
    {
      "epoch": 0.13658488129532134,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0007890771828747392,
      "loss": 0.8567,
      "step": 2750
    },
    {
      "epoch": 0.1370815535909407,
      "grad_norm": 0.265625,
      "learning_rate": 0.0007890374490910898,
      "loss": 0.9067,
      "step": 2760
    },
    {
      "epoch": 0.13757822588656005,
      "grad_norm": 0.25,
      "learning_rate": 0.0007889977153074402,
      "loss": 0.8816,
      "step": 2770
    },
    {
      "epoch": 0.1380748981821794,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0007889579815237906,
      "loss": 0.8963,
      "step": 2780
    },
    {
      "epoch": 0.13857157047779875,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0007889182477401411,
      "loss": 0.838,
      "step": 2790
    },
    {
      "epoch": 0.1390682427734181,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0007888785139564915,
      "loss": 0.8586,
      "step": 2800
    },
    {
      "epoch": 0.13956491506903745,
      "grad_norm": 0.23046875,
      "learning_rate": 0.000788838780172842,
      "loss": 0.8659,
      "step": 2810
    },
    {
      "epoch": 0.1400615873646568,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0007887990463891925,
      "loss": 0.9058,
      "step": 2820
    },
    {
      "epoch": 0.14055825966027616,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0007887593126055429,
      "loss": 0.8714,
      "step": 2830
    },
    {
      "epoch": 0.1410549319558955,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0007887195788218933,
      "loss": 0.8725,
      "step": 2840
    },
    {
      "epoch": 0.14155160425151486,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0007886798450382438,
      "loss": 0.8797,
      "step": 2850
    },
    {
      "epoch": 0.1420482765471342,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0007886401112545943,
      "loss": 0.866,
      "step": 2860
    },
    {
      "epoch": 0.14254494884275354,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0007886003774709447,
      "loss": 0.8559,
      "step": 2870
    },
    {
      "epoch": 0.1430416211383729,
      "grad_norm": 0.25,
      "learning_rate": 0.0007885606436872952,
      "loss": 0.8683,
      "step": 2880
    },
    {
      "epoch": 0.14353829343399224,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0007885209099036456,
      "loss": 0.8658,
      "step": 2890
    },
    {
      "epoch": 0.1440349657296116,
      "grad_norm": 0.234375,
      "learning_rate": 0.000788481176119996,
      "loss": 0.8778,
      "step": 2900
    },
    {
      "epoch": 0.14453163802523095,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0007884414423363466,
      "loss": 0.8682,
      "step": 2910
    },
    {
      "epoch": 0.1450283103208503,
      "grad_norm": 0.25390625,
      "learning_rate": 0.000788401708552697,
      "loss": 0.8524,
      "step": 2920
    },
    {
      "epoch": 0.14552498261646965,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0007883619747690474,
      "loss": 0.8535,
      "step": 2930
    },
    {
      "epoch": 0.14602165491208902,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0007883222409853979,
      "loss": 0.8414,
      "step": 2940
    },
    {
      "epoch": 0.14651832720770835,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0007882825072017483,
      "loss": 0.8294,
      "step": 2950
    },
    {
      "epoch": 0.1470149995033277,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0007882427734180987,
      "loss": 0.8701,
      "step": 2960
    },
    {
      "epoch": 0.14751167179894706,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0007882030396344492,
      "loss": 0.8428,
      "step": 2970
    },
    {
      "epoch": 0.1480083440945664,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0007881633058507997,
      "loss": 0.8341,
      "step": 2980
    },
    {
      "epoch": 0.14850501639018576,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0007881235720671502,
      "loss": 0.839,
      "step": 2990
    },
    {
      "epoch": 0.1490016886858051,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0007880838382835005,
      "loss": 0.8262,
      "step": 3000
    },
    {
      "epoch": 0.14949836098142447,
      "grad_norm": 0.2265625,
      "learning_rate": 0.000788044104499851,
      "loss": 0.8626,
      "step": 3010
    },
    {
      "epoch": 0.1499950332770438,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0007880043707162015,
      "loss": 0.8461,
      "step": 3020
    },
    {
      "epoch": 0.15049170557266317,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0007879646369325519,
      "loss": 0.8441,
      "step": 3030
    },
    {
      "epoch": 0.1509883778682825,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0007879249031489024,
      "loss": 0.8595,
      "step": 3040
    },
    {
      "epoch": 0.15148505016390185,
      "grad_norm": 0.265625,
      "learning_rate": 0.0007878851693652528,
      "loss": 0.877,
      "step": 3050
    },
    {
      "epoch": 0.1519817224595212,
      "grad_norm": 0.21875,
      "learning_rate": 0.0007878454355816032,
      "loss": 0.8823,
      "step": 3060
    },
    {
      "epoch": 0.15247839475514055,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0007878057017979538,
      "loss": 0.8481,
      "step": 3070
    },
    {
      "epoch": 0.15297506705075992,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0007877659680143042,
      "loss": 0.8838,
      "step": 3080
    },
    {
      "epoch": 0.15347173934637925,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0007877262342306546,
      "loss": 0.8341,
      "step": 3090
    },
    {
      "epoch": 0.15396841164199862,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0007876865004470051,
      "loss": 0.8893,
      "step": 3100
    },
    {
      "epoch": 0.15446508393761796,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0007876467666633555,
      "loss": 0.8442,
      "step": 3110
    },
    {
      "epoch": 0.1549617562332373,
      "grad_norm": 0.26171875,
      "learning_rate": 0.000787607032879706,
      "loss": 0.837,
      "step": 3120
    },
    {
      "epoch": 0.15545842852885666,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0007875672990960565,
      "loss": 0.8601,
      "step": 3130
    },
    {
      "epoch": 0.155955100824476,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0007875275653124069,
      "loss": 0.8514,
      "step": 3140
    },
    {
      "epoch": 0.15645177312009537,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0007874878315287574,
      "loss": 0.886,
      "step": 3150
    },
    {
      "epoch": 0.1569484454157147,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0007874480977451077,
      "loss": 0.8572,
      "step": 3160
    },
    {
      "epoch": 0.15744511771133407,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0007874083639614583,
      "loss": 0.862,
      "step": 3170
    },
    {
      "epoch": 0.1579417900069534,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0007873686301778088,
      "loss": 0.8112,
      "step": 3180
    },
    {
      "epoch": 0.15843846230257277,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0007873288963941591,
      "loss": 0.8726,
      "step": 3190
    },
    {
      "epoch": 0.1589351345981921,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0007872891626105096,
      "loss": 0.8618,
      "step": 3200
    },
    {
      "epoch": 0.15943180689381145,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0007872494288268602,
      "loss": 0.8528,
      "step": 3210
    },
    {
      "epoch": 0.15992847918943082,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0007872096950432105,
      "loss": 0.8395,
      "step": 3220
    },
    {
      "epoch": 0.16042515148505015,
      "grad_norm": 0.25,
      "learning_rate": 0.000787169961259561,
      "loss": 0.827,
      "step": 3230
    },
    {
      "epoch": 0.16092182378066952,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0007871302274759114,
      "loss": 0.8478,
      "step": 3240
    },
    {
      "epoch": 0.16141849607628886,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0007870904936922618,
      "loss": 0.8247,
      "step": 3250
    },
    {
      "epoch": 0.16191516837190822,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0007870507599086123,
      "loss": 0.8557,
      "step": 3260
    },
    {
      "epoch": 0.16241184066752756,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0007870110261249628,
      "loss": 0.8532,
      "step": 3270
    },
    {
      "epoch": 0.16290851296314693,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0007869712923413133,
      "loss": 0.8545,
      "step": 3280
    },
    {
      "epoch": 0.16340518525876627,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0007869315585576637,
      "loss": 0.8675,
      "step": 3290
    },
    {
      "epoch": 0.1639018575543856,
      "grad_norm": 0.203125,
      "learning_rate": 0.0007868918247740141,
      "loss": 0.8209,
      "step": 3300
    },
    {
      "epoch": 0.16439852985000497,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0007868520909903647,
      "loss": 0.8332,
      "step": 3310
    },
    {
      "epoch": 0.1648952021456243,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0007868123572067151,
      "loss": 0.8373,
      "step": 3320
    },
    {
      "epoch": 0.16539187444124367,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0007867726234230655,
      "loss": 0.862,
      "step": 3330
    },
    {
      "epoch": 0.165888546736863,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000786732889639416,
      "loss": 0.8397,
      "step": 3340
    },
    {
      "epoch": 0.16638521903248238,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0007866931558557663,
      "loss": 0.8448,
      "step": 3350
    },
    {
      "epoch": 0.16688189132810172,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0007866534220721168,
      "loss": 0.8382,
      "step": 3360
    },
    {
      "epoch": 0.16737856362372106,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0007866136882884674,
      "loss": 0.837,
      "step": 3370
    },
    {
      "epoch": 0.16787523591934042,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0007865739545048177,
      "loss": 0.8321,
      "step": 3380
    },
    {
      "epoch": 0.16837190821495976,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0007865342207211682,
      "loss": 0.8347,
      "step": 3390
    },
    {
      "epoch": 0.16886858051057912,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0007864944869375187,
      "loss": 0.879,
      "step": 3400
    },
    {
      "epoch": 0.16936525280619846,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.000786454753153869,
      "loss": 0.8377,
      "step": 3410
    },
    {
      "epoch": 0.16986192510181783,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0007864150193702196,
      "loss": 0.7883,
      "step": 3420
    },
    {
      "epoch": 0.17035859739743717,
      "grad_norm": 0.228515625,
      "learning_rate": 0.00078637528558657,
      "loss": 0.8456,
      "step": 3430
    },
    {
      "epoch": 0.17085526969305653,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0007863355518029205,
      "loss": 0.8309,
      "step": 3440
    },
    {
      "epoch": 0.17135194198867587,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0007862958180192709,
      "loss": 0.8715,
      "step": 3450
    },
    {
      "epoch": 0.1718486142842952,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0007862560842356213,
      "loss": 0.8108,
      "step": 3460
    },
    {
      "epoch": 0.17234528657991458,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0007862163504519719,
      "loss": 0.8348,
      "step": 3470
    },
    {
      "epoch": 0.1728419588755339,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0007861766166683223,
      "loss": 0.8579,
      "step": 3480
    },
    {
      "epoch": 0.17333863117115328,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0007861368828846727,
      "loss": 0.8149,
      "step": 3490
    },
    {
      "epoch": 0.17383530346677262,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0007860971491010232,
      "loss": 0.8031,
      "step": 3500
    },
    {
      "epoch": 0.17433197576239198,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0007860574153173736,
      "loss": 0.8666,
      "step": 3510
    },
    {
      "epoch": 0.17482864805801132,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0007860176815337241,
      "loss": 0.8271,
      "step": 3520
    },
    {
      "epoch": 0.1753253203536307,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0007859779477500746,
      "loss": 0.8059,
      "step": 3530
    },
    {
      "epoch": 0.17582199264925003,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.000785938213966425,
      "loss": 0.8332,
      "step": 3540
    },
    {
      "epoch": 0.17631866494486936,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0007858984801827754,
      "loss": 0.827,
      "step": 3550
    },
    {
      "epoch": 0.17681533724048873,
      "grad_norm": 0.23046875,
      "learning_rate": 0.000785858746399126,
      "loss": 0.8217,
      "step": 3560
    },
    {
      "epoch": 0.17731200953610807,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0007858190126154763,
      "loss": 0.8426,
      "step": 3570
    },
    {
      "epoch": 0.17780868183172743,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0007857792788318268,
      "loss": 0.8383,
      "step": 3580
    },
    {
      "epoch": 0.17830535412734677,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0007857395450481773,
      "loss": 0.8361,
      "step": 3590
    },
    {
      "epoch": 0.17880202642296614,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0007856998112645277,
      "loss": 0.815,
      "step": 3600
    },
    {
      "epoch": 0.17929869871858548,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0007856600774808781,
      "loss": 0.822,
      "step": 3610
    },
    {
      "epoch": 0.17979537101420484,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0007856203436972286,
      "loss": 0.8272,
      "step": 3620
    },
    {
      "epoch": 0.18029204330982418,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0007855806099135791,
      "loss": 0.8239,
      "step": 3630
    },
    {
      "epoch": 0.18078871560544352,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0007855408761299295,
      "loss": 0.8254,
      "step": 3640
    },
    {
      "epoch": 0.18128538790106288,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0007855011423462799,
      "loss": 0.8422,
      "step": 3650
    },
    {
      "epoch": 0.18178206019668222,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0007854614085626304,
      "loss": 0.8412,
      "step": 3660
    },
    {
      "epoch": 0.1822787324923016,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0007854216747789809,
      "loss": 0.8247,
      "step": 3670
    },
    {
      "epoch": 0.18277540478792093,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0007853819409953313,
      "loss": 0.8094,
      "step": 3680
    },
    {
      "epoch": 0.1832720770835403,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0007853422072116818,
      "loss": 0.8558,
      "step": 3690
    },
    {
      "epoch": 0.18376874937915963,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0007853024734280322,
      "loss": 0.8463,
      "step": 3700
    },
    {
      "epoch": 0.18426542167477897,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0007852627396443826,
      "loss": 0.834,
      "step": 3710
    },
    {
      "epoch": 0.18476209397039833,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0007852230058607332,
      "loss": 0.8033,
      "step": 3720
    },
    {
      "epoch": 0.18525876626601767,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0007851832720770836,
      "loss": 0.8285,
      "step": 3730
    },
    {
      "epoch": 0.18575543856163704,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.000785143538293434,
      "loss": 0.7968,
      "step": 3740
    },
    {
      "epoch": 0.18625211085725638,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0007851038045097845,
      "loss": 0.823,
      "step": 3750
    },
    {
      "epoch": 0.18674878315287574,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0007850640707261349,
      "loss": 0.8429,
      "step": 3760
    },
    {
      "epoch": 0.18724545544849508,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0007850243369424854,
      "loss": 0.8029,
      "step": 3770
    },
    {
      "epoch": 0.18774212774411445,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0007849846031588359,
      "loss": 0.7974,
      "step": 3780
    },
    {
      "epoch": 0.18823880003973378,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0007849448693751863,
      "loss": 0.8167,
      "step": 3790
    },
    {
      "epoch": 0.18873547233535312,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0007849051355915367,
      "loss": 0.8322,
      "step": 3800
    },
    {
      "epoch": 0.1892321446309725,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0007848654018078872,
      "loss": 0.8332,
      "step": 3810
    },
    {
      "epoch": 0.18972881692659183,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0007848256680242377,
      "loss": 0.8058,
      "step": 3820
    },
    {
      "epoch": 0.1902254892222112,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0007847859342405881,
      "loss": 0.8551,
      "step": 3830
    },
    {
      "epoch": 0.19072216151783053,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0007847462004569385,
      "loss": 0.8265,
      "step": 3840
    },
    {
      "epoch": 0.1912188338134499,
      "grad_norm": 0.2421875,
      "learning_rate": 0.000784706466673289,
      "loss": 0.8347,
      "step": 3850
    },
    {
      "epoch": 0.19171550610906923,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0007846667328896394,
      "loss": 0.803,
      "step": 3860
    },
    {
      "epoch": 0.1922121784046886,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0007846269991059899,
      "loss": 0.8361,
      "step": 3870
    },
    {
      "epoch": 0.19270885070030794,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0007845872653223404,
      "loss": 0.8125,
      "step": 3880
    },
    {
      "epoch": 0.19320552299592728,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0007845475315386908,
      "loss": 0.8293,
      "step": 3890
    },
    {
      "epoch": 0.19370219529154664,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0007845077977550412,
      "loss": 0.8149,
      "step": 3900
    },
    {
      "epoch": 0.19419886758716598,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0007844680639713917,
      "loss": 0.8187,
      "step": 3910
    },
    {
      "epoch": 0.19469553988278535,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0007844283301877422,
      "loss": 0.8111,
      "step": 3920
    },
    {
      "epoch": 0.19519221217840468,
      "grad_norm": 0.21875,
      "learning_rate": 0.0007843885964040926,
      "loss": 0.8085,
      "step": 3930
    },
    {
      "epoch": 0.19568888447402405,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0007843488626204431,
      "loss": 0.8489,
      "step": 3940
    },
    {
      "epoch": 0.1961855567696434,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0007843091288367935,
      "loss": 0.8231,
      "step": 3950
    },
    {
      "epoch": 0.19668222906526273,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0007842693950531439,
      "loss": 0.8353,
      "step": 3960
    },
    {
      "epoch": 0.1971789013608821,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0007842296612694945,
      "loss": 0.8116,
      "step": 3970
    },
    {
      "epoch": 0.19767557365650143,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0007841899274858449,
      "loss": 0.8392,
      "step": 3980
    },
    {
      "epoch": 0.1981722459521208,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0007841501937021953,
      "loss": 0.8145,
      "step": 3990
    },
    {
      "epoch": 0.19866891824774013,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0007841104599185458,
      "loss": 0.8646,
      "step": 4000
    },
    {
      "epoch": 0.1991655905433595,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0007840707261348962,
      "loss": 0.792,
      "step": 4010
    },
    {
      "epoch": 0.19966226283897884,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0007840309923512468,
      "loss": 0.7947,
      "step": 4020
    },
    {
      "epoch": 0.2001589351345982,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0007839912585675971,
      "loss": 0.7848,
      "step": 4030
    },
    {
      "epoch": 0.20065560743021754,
      "grad_norm": 0.21875,
      "learning_rate": 0.0007839515247839476,
      "loss": 0.8112,
      "step": 4040
    },
    {
      "epoch": 0.20115227972583688,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0007839117910002981,
      "loss": 0.8311,
      "step": 4050
    },
    {
      "epoch": 0.20164895202145625,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0007838720572166484,
      "loss": 0.7896,
      "step": 4060
    },
    {
      "epoch": 0.20214562431707558,
      "grad_norm": 0.21875,
      "learning_rate": 0.000783832323432999,
      "loss": 0.7951,
      "step": 4070
    },
    {
      "epoch": 0.20264229661269495,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0007837925896493495,
      "loss": 0.757,
      "step": 4080
    },
    {
      "epoch": 0.2031389689083143,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0007837528558656998,
      "loss": 0.7988,
      "step": 4090
    },
    {
      "epoch": 0.20363564120393365,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0007837131220820503,
      "loss": 0.8171,
      "step": 4100
    },
    {
      "epoch": 0.204132313499553,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0007836733882984007,
      "loss": 0.806,
      "step": 4110
    },
    {
      "epoch": 0.20462898579517236,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0007836336545147512,
      "loss": 0.8052,
      "step": 4120
    },
    {
      "epoch": 0.2051256580907917,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0007835939207311017,
      "loss": 0.814,
      "step": 4130
    },
    {
      "epoch": 0.20562233038641103,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0007835541869474521,
      "loss": 0.8323,
      "step": 4140
    },
    {
      "epoch": 0.2061190026820304,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0007835144531638025,
      "loss": 0.7967,
      "step": 4150
    },
    {
      "epoch": 0.20661567497764974,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000783474719380153,
      "loss": 0.7966,
      "step": 4160
    },
    {
      "epoch": 0.2071123472732691,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0007834349855965035,
      "loss": 0.8208,
      "step": 4170
    },
    {
      "epoch": 0.20760901956888844,
      "grad_norm": 0.23046875,
      "learning_rate": 0.000783395251812854,
      "loss": 0.8258,
      "step": 4180
    },
    {
      "epoch": 0.2081056918645078,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0007833555180292044,
      "loss": 0.8061,
      "step": 4190
    },
    {
      "epoch": 0.20860236416012715,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0007833157842455548,
      "loss": 0.824,
      "step": 4200
    },
    {
      "epoch": 0.2090990364557465,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0007832760504619053,
      "loss": 0.8106,
      "step": 4210
    },
    {
      "epoch": 0.20959570875136585,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0007832363166782556,
      "loss": 0.8123,
      "step": 4220
    },
    {
      "epoch": 0.2100923810469852,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0007831965828946062,
      "loss": 0.863,
      "step": 4230
    },
    {
      "epoch": 0.21058905334260455,
      "grad_norm": 0.25,
      "learning_rate": 0.0007831568491109567,
      "loss": 0.8205,
      "step": 4240
    },
    {
      "epoch": 0.2110857256382239,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.000783117115327307,
      "loss": 0.8325,
      "step": 4250
    },
    {
      "epoch": 0.21158239793384326,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0007830773815436575,
      "loss": 0.8257,
      "step": 4260
    },
    {
      "epoch": 0.2120790702294626,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0007830376477600081,
      "loss": 0.8101,
      "step": 4270
    },
    {
      "epoch": 0.21257574252508196,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0007829979139763584,
      "loss": 0.8094,
      "step": 4280
    },
    {
      "epoch": 0.2130724148207013,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0007829581801927089,
      "loss": 0.8194,
      "step": 4290
    },
    {
      "epoch": 0.21356908711632064,
      "grad_norm": 0.234375,
      "learning_rate": 0.0007829184464090593,
      "loss": 0.8438,
      "step": 4300
    },
    {
      "epoch": 0.21406575941194,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0007828787126254097,
      "loss": 0.8385,
      "step": 4310
    },
    {
      "epoch": 0.21456243170755934,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0007828389788417603,
      "loss": 0.8205,
      "step": 4320
    },
    {
      "epoch": 0.2150591040031787,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0007827992450581107,
      "loss": 0.7999,
      "step": 4330
    },
    {
      "epoch": 0.21555577629879805,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0007827595112744612,
      "loss": 0.7847,
      "step": 4340
    },
    {
      "epoch": 0.2160524485944174,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0007827197774908116,
      "loss": 0.7887,
      "step": 4350
    },
    {
      "epoch": 0.21654912089003675,
      "grad_norm": 0.232421875,
      "learning_rate": 0.000782680043707162,
      "loss": 0.8135,
      "step": 4360
    },
    {
      "epoch": 0.21704579318565612,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0007826403099235126,
      "loss": 0.8124,
      "step": 4370
    },
    {
      "epoch": 0.21754246548127545,
      "grad_norm": 0.208984375,
      "learning_rate": 0.000782600576139863,
      "loss": 0.7823,
      "step": 4380
    },
    {
      "epoch": 0.2180391377768948,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0007825608423562134,
      "loss": 0.8115,
      "step": 4390
    },
    {
      "epoch": 0.21853581007251416,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0007825211085725639,
      "loss": 0.8017,
      "step": 4400
    },
    {
      "epoch": 0.2190324823681335,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0007824813747889143,
      "loss": 0.7821,
      "step": 4410
    },
    {
      "epoch": 0.21952915466375286,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0007824416410052647,
      "loss": 0.8001,
      "step": 4420
    },
    {
      "epoch": 0.2200258269593722,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0007824019072216153,
      "loss": 0.7993,
      "step": 4430
    },
    {
      "epoch": 0.22052249925499157,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0007823621734379656,
      "loss": 0.8269,
      "step": 4440
    },
    {
      "epoch": 0.2210191715506109,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0007823224396543161,
      "loss": 0.8173,
      "step": 4450
    },
    {
      "epoch": 0.22151584384623027,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0007822827058706666,
      "loss": 0.7898,
      "step": 4460
    },
    {
      "epoch": 0.2220125161418496,
      "grad_norm": 0.236328125,
      "learning_rate": 0.000782242972087017,
      "loss": 0.8034,
      "step": 4470
    },
    {
      "epoch": 0.22250918843746895,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0007822032383033675,
      "loss": 0.7929,
      "step": 4480
    },
    {
      "epoch": 0.2230058607330883,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0007821635045197179,
      "loss": 0.7875,
      "step": 4490
    },
    {
      "epoch": 0.22350253302870765,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0007821237707360684,
      "loss": 0.7699,
      "step": 4500
    },
    {
      "epoch": 0.22399920532432702,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0007820840369524188,
      "loss": 0.815,
      "step": 4510
    },
    {
      "epoch": 0.22449587761994635,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0007820443031687692,
      "loss": 0.7915,
      "step": 4520
    },
    {
      "epoch": 0.22499254991556572,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0007820045693851198,
      "loss": 0.8077,
      "step": 4530
    },
    {
      "epoch": 0.22548922221118506,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0007819648356014702,
      "loss": 0.7716,
      "step": 4540
    },
    {
      "epoch": 0.2259858945068044,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0007819251018178206,
      "loss": 0.7838,
      "step": 4550
    },
    {
      "epoch": 0.22648256680242376,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0007818853680341711,
      "loss": 0.8343,
      "step": 4560
    },
    {
      "epoch": 0.2269792390980431,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0007818456342505215,
      "loss": 0.7671,
      "step": 4570
    },
    {
      "epoch": 0.22747591139366247,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000781805900466872,
      "loss": 0.7987,
      "step": 4580
    },
    {
      "epoch": 0.2279725836892818,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0007817661666832225,
      "loss": 0.7885,
      "step": 4590
    },
    {
      "epoch": 0.22846925598490117,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0007817264328995729,
      "loss": 0.7943,
      "step": 4600
    },
    {
      "epoch": 0.2289659282805205,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0007816866991159233,
      "loss": 0.8023,
      "step": 4610
    },
    {
      "epoch": 0.22946260057613987,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0007816469653322739,
      "loss": 0.7773,
      "step": 4620
    },
    {
      "epoch": 0.2299592728717592,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0007816072315486243,
      "loss": 0.8065,
      "step": 4630
    },
    {
      "epoch": 0.23045594516737855,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0007815674977649747,
      "loss": 0.7635,
      "step": 4640
    },
    {
      "epoch": 0.23095261746299792,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0007815277639813252,
      "loss": 0.7777,
      "step": 4650
    },
    {
      "epoch": 0.23144928975861725,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0007814880301976756,
      "loss": 0.7775,
      "step": 4660
    },
    {
      "epoch": 0.23194596205423662,
      "grad_norm": 0.2265625,
      "learning_rate": 0.000781448296414026,
      "loss": 0.8366,
      "step": 4670
    },
    {
      "epoch": 0.23244263434985596,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0007814085626303766,
      "loss": 0.7759,
      "step": 4680
    },
    {
      "epoch": 0.23293930664547532,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000781368828846727,
      "loss": 0.7545,
      "step": 4690
    },
    {
      "epoch": 0.23343597894109466,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0007813290950630774,
      "loss": 0.8055,
      "step": 4700
    },
    {
      "epoch": 0.23393265123671403,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0007812893612794278,
      "loss": 0.7886,
      "step": 4710
    },
    {
      "epoch": 0.23442932353233337,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0007812496274957783,
      "loss": 0.8074,
      "step": 4720
    },
    {
      "epoch": 0.2349259958279527,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0007812098937121288,
      "loss": 0.8098,
      "step": 4730
    },
    {
      "epoch": 0.23542266812357207,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0007811701599284792,
      "loss": 0.8287,
      "step": 4740
    },
    {
      "epoch": 0.2359193404191914,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0007811304261448297,
      "loss": 0.7923,
      "step": 4750
    },
    {
      "epoch": 0.23641601271481077,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0007810906923611801,
      "loss": 0.8065,
      "step": 4760
    },
    {
      "epoch": 0.2369126850104301,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0007810509585775305,
      "loss": 0.7706,
      "step": 4770
    },
    {
      "epoch": 0.23740935730604948,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0007810112247938811,
      "loss": 0.8026,
      "step": 4780
    },
    {
      "epoch": 0.23790602960166882,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0007809714910102315,
      "loss": 0.8084,
      "step": 4790
    },
    {
      "epoch": 0.23840270189728818,
      "grad_norm": 0.21875,
      "learning_rate": 0.0007809317572265819,
      "loss": 0.7945,
      "step": 4800
    },
    {
      "epoch": 0.23889937419290752,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0007808920234429324,
      "loss": 0.8042,
      "step": 4810
    },
    {
      "epoch": 0.23939604648852686,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0007808522896592828,
      "loss": 0.7626,
      "step": 4820
    },
    {
      "epoch": 0.23989271878414622,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0007808125558756333,
      "loss": 0.7616,
      "step": 4830
    },
    {
      "epoch": 0.24038939107976556,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007807728220919838,
      "loss": 0.7974,
      "step": 4840
    },
    {
      "epoch": 0.24088606337538493,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0007807330883083342,
      "loss": 0.8034,
      "step": 4850
    },
    {
      "epoch": 0.24138273567100427,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0007806933545246846,
      "loss": 0.8325,
      "step": 4860
    },
    {
      "epoch": 0.24187940796662363,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007806536207410351,
      "loss": 0.8055,
      "step": 4870
    },
    {
      "epoch": 0.24237608026224297,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0007806138869573856,
      "loss": 0.7872,
      "step": 4880
    },
    {
      "epoch": 0.2428727525578623,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.000780574153173736,
      "loss": 0.8107,
      "step": 4890
    },
    {
      "epoch": 0.24336942485348168,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0007805344193900864,
      "loss": 0.7817,
      "step": 4900
    },
    {
      "epoch": 0.243866097149101,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0007804946856064369,
      "loss": 0.8126,
      "step": 4910
    },
    {
      "epoch": 0.24436276944472038,
      "grad_norm": 0.1875,
      "learning_rate": 0.0007804549518227874,
      "loss": 0.7746,
      "step": 4920
    },
    {
      "epoch": 0.24485944174033972,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0007804152180391378,
      "loss": 0.7759,
      "step": 4930
    },
    {
      "epoch": 0.24535611403595908,
      "grad_norm": 0.203125,
      "learning_rate": 0.0007803754842554883,
      "loss": 0.77,
      "step": 4940
    },
    {
      "epoch": 0.24585278633157842,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0007803357504718388,
      "loss": 0.7883,
      "step": 4950
    },
    {
      "epoch": 0.2463494586271978,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0007802960166881891,
      "loss": 0.7896,
      "step": 4960
    },
    {
      "epoch": 0.24684613092281713,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0007802562829045396,
      "loss": 0.796,
      "step": 4970
    },
    {
      "epoch": 0.24734280321843646,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007802165491208901,
      "loss": 0.8069,
      "step": 4980
    },
    {
      "epoch": 0.24783947551405583,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0007801768153372405,
      "loss": 0.8263,
      "step": 4990
    },
    {
      "epoch": 0.24833614780967517,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.000780137081553591,
      "loss": 0.7691,
      "step": 5000
    },
    {
      "epoch": 0.24883282010529453,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0007800973477699414,
      "loss": 0.7552,
      "step": 5010
    },
    {
      "epoch": 0.24932949240091387,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0007800576139862918,
      "loss": 0.7764,
      "step": 5020
    },
    {
      "epoch": 0.24982616469653324,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0007800178802026424,
      "loss": 0.7935,
      "step": 5030
    },
    {
      "epoch": 0.2503228369921526,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0007799781464189928,
      "loss": 0.7723,
      "step": 5040
    },
    {
      "epoch": 0.2508195092877719,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0007799384126353432,
      "loss": 0.7674,
      "step": 5050
    },
    {
      "epoch": 0.25131618158339125,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007798986788516937,
      "loss": 0.7987,
      "step": 5060
    },
    {
      "epoch": 0.25181285387901065,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0007798589450680441,
      "loss": 0.8071,
      "step": 5070
    },
    {
      "epoch": 0.25230952617463,
      "grad_norm": 0.203125,
      "learning_rate": 0.0007798192112843947,
      "loss": 0.8022,
      "step": 5080
    },
    {
      "epoch": 0.2528061984702493,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.000779779477500745,
      "loss": 0.7887,
      "step": 5090
    },
    {
      "epoch": 0.25330287076586866,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0007797397437170955,
      "loss": 0.7665,
      "step": 5100
    },
    {
      "epoch": 0.25379954306148805,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000779700009933446,
      "loss": 0.8016,
      "step": 5110
    },
    {
      "epoch": 0.2542962153571074,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0007796602761497963,
      "loss": 0.7871,
      "step": 5120
    },
    {
      "epoch": 0.25479288765272673,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0007796205423661469,
      "loss": 0.8054,
      "step": 5130
    },
    {
      "epoch": 0.25528955994834607,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0007795808085824974,
      "loss": 0.7859,
      "step": 5140
    },
    {
      "epoch": 0.2557862322439654,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0007795410747988477,
      "loss": 0.7812,
      "step": 5150
    },
    {
      "epoch": 0.2562829045395848,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0007795013410151982,
      "loss": 0.7794,
      "step": 5160
    },
    {
      "epoch": 0.25677957683520414,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0007794616072315486,
      "loss": 0.7664,
      "step": 5170
    },
    {
      "epoch": 0.2572762491308235,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.000779421873447899,
      "loss": 0.7864,
      "step": 5180
    },
    {
      "epoch": 0.2577729214264428,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0007793821396642496,
      "loss": 0.8203,
      "step": 5190
    },
    {
      "epoch": 0.2582695937220622,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0007793424058806,
      "loss": 0.7712,
      "step": 5200
    },
    {
      "epoch": 0.25876626601768155,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0007793026720969504,
      "loss": 0.7664,
      "step": 5210
    },
    {
      "epoch": 0.2592629383133009,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0007792629383133009,
      "loss": 0.7916,
      "step": 5220
    },
    {
      "epoch": 0.2597596106089202,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0007792232045296514,
      "loss": 0.7596,
      "step": 5230
    },
    {
      "epoch": 0.26025628290453956,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0007791834707460019,
      "loss": 0.7672,
      "step": 5240
    },
    {
      "epoch": 0.26075295520015895,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0007791437369623523,
      "loss": 0.7835,
      "step": 5250
    },
    {
      "epoch": 0.2612496274957783,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0007791040031787027,
      "loss": 0.7874,
      "step": 5260
    },
    {
      "epoch": 0.26174629979139763,
      "grad_norm": 0.21875,
      "learning_rate": 0.0007790642693950532,
      "loss": 0.7597,
      "step": 5270
    },
    {
      "epoch": 0.26224297208701697,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0007790245356114037,
      "loss": 0.7825,
      "step": 5280
    },
    {
      "epoch": 0.26273964438263636,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0007789848018277541,
      "loss": 0.8065,
      "step": 5290
    },
    {
      "epoch": 0.2632363166782557,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0007789450680441046,
      "loss": 0.7338,
      "step": 5300
    },
    {
      "epoch": 0.26373298897387504,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0007789053342604549,
      "loss": 0.769,
      "step": 5310
    },
    {
      "epoch": 0.2642296612694944,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0007788656004768054,
      "loss": 0.776,
      "step": 5320
    },
    {
      "epoch": 0.2647263335651137,
      "grad_norm": 0.189453125,
      "learning_rate": 0.000778825866693156,
      "loss": 0.8244,
      "step": 5330
    },
    {
      "epoch": 0.2652230058607331,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007787861329095063,
      "loss": 0.7883,
      "step": 5340
    },
    {
      "epoch": 0.26571967815635245,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0007787463991258568,
      "loss": 0.7951,
      "step": 5350
    },
    {
      "epoch": 0.2662163504519718,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0007787066653422072,
      "loss": 0.8077,
      "step": 5360
    },
    {
      "epoch": 0.2667130227475911,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0007786669315585577,
      "loss": 0.7914,
      "step": 5370
    },
    {
      "epoch": 0.2672096950432105,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0007786271977749082,
      "loss": 0.7563,
      "step": 5380
    },
    {
      "epoch": 0.26770636733882985,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0007785874639912586,
      "loss": 0.7683,
      "step": 5390
    },
    {
      "epoch": 0.2682030396344492,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0007785477302076091,
      "loss": 0.7949,
      "step": 5400
    },
    {
      "epoch": 0.26869971193006853,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0007785079964239595,
      "loss": 0.8195,
      "step": 5410
    },
    {
      "epoch": 0.26919638422568787,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007784682626403099,
      "loss": 0.7995,
      "step": 5420
    },
    {
      "epoch": 0.26969305652130726,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0007784285288566605,
      "loss": 0.7776,
      "step": 5430
    },
    {
      "epoch": 0.2701897288169266,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0007783887950730109,
      "loss": 0.7899,
      "step": 5440
    },
    {
      "epoch": 0.27068640111254594,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0007783490612893613,
      "loss": 0.8031,
      "step": 5450
    },
    {
      "epoch": 0.2711830734081653,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007783093275057118,
      "loss": 0.749,
      "step": 5460
    },
    {
      "epoch": 0.27167974570378467,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0007782695937220622,
      "loss": 0.7685,
      "step": 5470
    },
    {
      "epoch": 0.272176417999404,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0007782298599384127,
      "loss": 0.765,
      "step": 5480
    },
    {
      "epoch": 0.27267309029502335,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0007781901261547632,
      "loss": 0.7843,
      "step": 5490
    },
    {
      "epoch": 0.2731697625906427,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0007781503923711135,
      "loss": 0.7801,
      "step": 5500
    },
    {
      "epoch": 0.273666434886262,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000778110658587464,
      "loss": 0.7614,
      "step": 5510
    },
    {
      "epoch": 0.2741631071818814,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0007780709248038145,
      "loss": 0.8162,
      "step": 5520
    },
    {
      "epoch": 0.27465977947750075,
      "grad_norm": 0.1875,
      "learning_rate": 0.000778031191020165,
      "loss": 0.7625,
      "step": 5530
    },
    {
      "epoch": 0.2751564517731201,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0007779914572365154,
      "loss": 0.7837,
      "step": 5540
    },
    {
      "epoch": 0.27565312406873943,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0007779517234528659,
      "loss": 0.7613,
      "step": 5550
    },
    {
      "epoch": 0.2761497963643588,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0007779119896692163,
      "loss": 0.7512,
      "step": 5560
    },
    {
      "epoch": 0.27664646865997816,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0007778722558855667,
      "loss": 0.7763,
      "step": 5570
    },
    {
      "epoch": 0.2771431409555975,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0007778325221019171,
      "loss": 0.7752,
      "step": 5580
    },
    {
      "epoch": 0.27763981325121684,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0007777927883182677,
      "loss": 0.8011,
      "step": 5590
    },
    {
      "epoch": 0.2781364855468362,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0007777530545346181,
      "loss": 0.7834,
      "step": 5600
    },
    {
      "epoch": 0.27863315784245557,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0007777133207509685,
      "loss": 0.8148,
      "step": 5610
    },
    {
      "epoch": 0.2791298301380749,
      "grad_norm": 0.1953125,
      "learning_rate": 0.000777673586967319,
      "loss": 0.7647,
      "step": 5620
    },
    {
      "epoch": 0.27962650243369425,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0007776338531836695,
      "loss": 0.7446,
      "step": 5630
    },
    {
      "epoch": 0.2801231747293136,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0007775941194000199,
      "loss": 0.7964,
      "step": 5640
    },
    {
      "epoch": 0.2806198470249329,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0007775543856163704,
      "loss": 0.7563,
      "step": 5650
    },
    {
      "epoch": 0.2811165193205523,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0007775146518327208,
      "loss": 0.7848,
      "step": 5660
    },
    {
      "epoch": 0.28161319161617165,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0007774749180490712,
      "loss": 0.7805,
      "step": 5670
    },
    {
      "epoch": 0.282109863911791,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0007774351842654218,
      "loss": 0.7383,
      "step": 5680
    },
    {
      "epoch": 0.28260653620741033,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0007773954504817722,
      "loss": 0.7549,
      "step": 5690
    },
    {
      "epoch": 0.2831032085030297,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0007773557166981226,
      "loss": 0.7672,
      "step": 5700
    },
    {
      "epoch": 0.28359988079864906,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0007773159829144731,
      "loss": 0.7659,
      "step": 5710
    },
    {
      "epoch": 0.2840965530942684,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0007772762491308235,
      "loss": 0.7696,
      "step": 5720
    },
    {
      "epoch": 0.28459322538988774,
      "grad_norm": 0.220703125,
      "learning_rate": 0.000777236515347174,
      "loss": 0.7976,
      "step": 5730
    },
    {
      "epoch": 0.2850898976855071,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0007771967815635245,
      "loss": 0.7625,
      "step": 5740
    },
    {
      "epoch": 0.28558656998112647,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0007771570477798749,
      "loss": 0.8234,
      "step": 5750
    },
    {
      "epoch": 0.2860832422767458,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0007771173139962253,
      "loss": 0.7991,
      "step": 5760
    },
    {
      "epoch": 0.28657991457236515,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0007770775802125757,
      "loss": 0.7791,
      "step": 5770
    },
    {
      "epoch": 0.2870765868679845,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0007770378464289263,
      "loss": 0.8082,
      "step": 5780
    },
    {
      "epoch": 0.2875732591636039,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0007769981126452767,
      "loss": 0.7729,
      "step": 5790
    },
    {
      "epoch": 0.2880699314592232,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0007769583788616271,
      "loss": 0.7724,
      "step": 5800
    },
    {
      "epoch": 0.28856660375484255,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0007769186450779776,
      "loss": 0.7698,
      "step": 5810
    },
    {
      "epoch": 0.2890632760504619,
      "grad_norm": 0.20703125,
      "learning_rate": 0.000776878911294328,
      "loss": 0.7587,
      "step": 5820
    },
    {
      "epoch": 0.28955994834608123,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0007768391775106784,
      "loss": 0.7634,
      "step": 5830
    },
    {
      "epoch": 0.2900566206417006,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.000776799443727029,
      "loss": 0.7557,
      "step": 5840
    },
    {
      "epoch": 0.29055329293731996,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0007767597099433794,
      "loss": 0.7405,
      "step": 5850
    },
    {
      "epoch": 0.2910499652329393,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0007767199761597298,
      "loss": 0.7826,
      "step": 5860
    },
    {
      "epoch": 0.29154663752855864,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0007766802423760803,
      "loss": 0.7608,
      "step": 5870
    },
    {
      "epoch": 0.29204330982417803,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0007766405085924307,
      "loss": 0.739,
      "step": 5880
    },
    {
      "epoch": 0.29253998211979737,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0007766007748087812,
      "loss": 0.7819,
      "step": 5890
    },
    {
      "epoch": 0.2930366544154167,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0007765610410251317,
      "loss": 0.7584,
      "step": 5900
    },
    {
      "epoch": 0.29353332671103605,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0007765213072414821,
      "loss": 0.7396,
      "step": 5910
    },
    {
      "epoch": 0.2940299990066554,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0007764815734578325,
      "loss": 0.7617,
      "step": 5920
    },
    {
      "epoch": 0.2945266713022748,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.000776441839674183,
      "loss": 0.7464,
      "step": 5930
    },
    {
      "epoch": 0.2950233435978941,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007764021058905335,
      "loss": 0.757,
      "step": 5940
    },
    {
      "epoch": 0.29552001589351345,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0007763623721068839,
      "loss": 0.7461,
      "step": 5950
    },
    {
      "epoch": 0.2960166881891328,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0007763226383232343,
      "loss": 0.77,
      "step": 5960
    },
    {
      "epoch": 0.2965133604847522,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0007762829045395848,
      "loss": 0.7571,
      "step": 5970
    },
    {
      "epoch": 0.2970100327803715,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0007762431707559354,
      "loss": 0.7764,
      "step": 5980
    },
    {
      "epoch": 0.29750670507599086,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0007762034369722857,
      "loss": 0.7419,
      "step": 5990
    },
    {
      "epoch": 0.2980033773716102,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007761637031886362,
      "loss": 0.7873,
      "step": 6000
    },
    {
      "epoch": 0.29850004966722954,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0007761239694049867,
      "loss": 0.7525,
      "step": 6010
    },
    {
      "epoch": 0.29899672196284893,
      "grad_norm": 0.1953125,
      "learning_rate": 0.000776084235621337,
      "loss": 0.7782,
      "step": 6020
    },
    {
      "epoch": 0.29949339425846827,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0007760445018376875,
      "loss": 0.7807,
      "step": 6030
    },
    {
      "epoch": 0.2999900665540876,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.000776004768054038,
      "loss": 0.7586,
      "step": 6040
    },
    {
      "epoch": 0.30048673884970695,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0007759650342703884,
      "loss": 0.7722,
      "step": 6050
    },
    {
      "epoch": 0.30098341114532634,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0007759253004867389,
      "loss": 0.7659,
      "step": 6060
    },
    {
      "epoch": 0.3014800834409457,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0007758855667030893,
      "loss": 0.7636,
      "step": 6070
    },
    {
      "epoch": 0.301976755736565,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0007758458329194397,
      "loss": 0.7604,
      "step": 6080
    },
    {
      "epoch": 0.30247342803218435,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0007758060991357903,
      "loss": 0.7528,
      "step": 6090
    },
    {
      "epoch": 0.3029701003278037,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0007757663653521407,
      "loss": 0.7645,
      "step": 6100
    },
    {
      "epoch": 0.3034667726234231,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0007757266315684912,
      "loss": 0.7779,
      "step": 6110
    },
    {
      "epoch": 0.3039634449190424,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0007756868977848416,
      "loss": 0.758,
      "step": 6120
    },
    {
      "epoch": 0.30446011721466176,
      "grad_norm": 0.189453125,
      "learning_rate": 0.000775647164001192,
      "loss": 0.7451,
      "step": 6130
    },
    {
      "epoch": 0.3049567895102811,
      "grad_norm": 0.1875,
      "learning_rate": 0.0007756074302175426,
      "loss": 0.7465,
      "step": 6140
    },
    {
      "epoch": 0.30545346180590044,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0007755676964338929,
      "loss": 0.7755,
      "step": 6150
    },
    {
      "epoch": 0.30595013410151983,
      "grad_norm": 0.234375,
      "learning_rate": 0.0007755279626502434,
      "loss": 0.7573,
      "step": 6160
    },
    {
      "epoch": 0.30644680639713917,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0007754882288665939,
      "loss": 0.7536,
      "step": 6170
    },
    {
      "epoch": 0.3069434786927585,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0007754484950829442,
      "loss": 0.7855,
      "step": 6180
    },
    {
      "epoch": 0.30744015098837785,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0007754087612992948,
      "loss": 0.756,
      "step": 6190
    },
    {
      "epoch": 0.30793682328399724,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0007753690275156453,
      "loss": 0.7682,
      "step": 6200
    },
    {
      "epoch": 0.3084334955796166,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007753292937319956,
      "loss": 0.7463,
      "step": 6210
    },
    {
      "epoch": 0.3089301678752359,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0007752895599483461,
      "loss": 0.7839,
      "step": 6220
    },
    {
      "epoch": 0.30942684017085526,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0007752498261646965,
      "loss": 0.7485,
      "step": 6230
    },
    {
      "epoch": 0.3099235124664746,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000775210092381047,
      "loss": 0.7452,
      "step": 6240
    },
    {
      "epoch": 0.310420184762094,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0007751703585973975,
      "loss": 0.7546,
      "step": 6250
    },
    {
      "epoch": 0.3109168570577133,
      "grad_norm": 0.1875,
      "learning_rate": 0.0007751306248137479,
      "loss": 0.7653,
      "step": 6260
    },
    {
      "epoch": 0.31141352935333266,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0007750908910300984,
      "loss": 0.7725,
      "step": 6270
    },
    {
      "epoch": 0.311910201648952,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0007750511572464488,
      "loss": 0.7692,
      "step": 6280
    },
    {
      "epoch": 0.3124068739445714,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0007750114234627993,
      "loss": 0.7469,
      "step": 6290
    },
    {
      "epoch": 0.31290354624019073,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0007749716896791498,
      "loss": 0.7579,
      "step": 6300
    },
    {
      "epoch": 0.31340021853581007,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0007749319558955002,
      "loss": 0.7455,
      "step": 6310
    },
    {
      "epoch": 0.3138968908314294,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0007748922221118506,
      "loss": 0.7563,
      "step": 6320
    },
    {
      "epoch": 0.31439356312704875,
      "grad_norm": 0.1875,
      "learning_rate": 0.0007748524883282011,
      "loss": 0.7535,
      "step": 6330
    },
    {
      "epoch": 0.31489023542266814,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007748127545445516,
      "loss": 0.7547,
      "step": 6340
    },
    {
      "epoch": 0.3153869077182875,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000774773020760902,
      "loss": 0.7392,
      "step": 6350
    },
    {
      "epoch": 0.3158835800139068,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0007747332869772525,
      "loss": 0.7651,
      "step": 6360
    },
    {
      "epoch": 0.31638025230952616,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0007746935531936028,
      "loss": 0.7575,
      "step": 6370
    },
    {
      "epoch": 0.31687692460514555,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0007746538194099533,
      "loss": 0.7446,
      "step": 6380
    },
    {
      "epoch": 0.3173735969007649,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0007746140856263039,
      "loss": 0.7425,
      "step": 6390
    },
    {
      "epoch": 0.3178702691963842,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0007745743518426542,
      "loss": 0.7696,
      "step": 6400
    },
    {
      "epoch": 0.31836694149200356,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0007745346180590047,
      "loss": 0.7632,
      "step": 6410
    },
    {
      "epoch": 0.3188636137876229,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0007744948842753551,
      "loss": 0.7838,
      "step": 6420
    },
    {
      "epoch": 0.3193602860832423,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0007744551504917056,
      "loss": 0.7685,
      "step": 6430
    },
    {
      "epoch": 0.31985695837886163,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0007744154167080561,
      "loss": 0.7652,
      "step": 6440
    },
    {
      "epoch": 0.32035363067448097,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0007743756829244065,
      "loss": 0.755,
      "step": 6450
    },
    {
      "epoch": 0.3208503029701003,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000774335949140757,
      "loss": 0.7277,
      "step": 6460
    },
    {
      "epoch": 0.3213469752657197,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0007742962153571074,
      "loss": 0.7414,
      "step": 6470
    },
    {
      "epoch": 0.32184364756133904,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0007742564815734578,
      "loss": 0.7466,
      "step": 6480
    },
    {
      "epoch": 0.3223403198569584,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007742167477898084,
      "loss": 0.7707,
      "step": 6490
    },
    {
      "epoch": 0.3228369921525777,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0007741770140061588,
      "loss": 0.7345,
      "step": 6500
    },
    {
      "epoch": 0.32333366444819706,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0007741372802225092,
      "loss": 0.7477,
      "step": 6510
    },
    {
      "epoch": 0.32383033674381645,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0007740975464388597,
      "loss": 0.7523,
      "step": 6520
    },
    {
      "epoch": 0.3243270090394358,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0007740578126552101,
      "loss": 0.7233,
      "step": 6530
    },
    {
      "epoch": 0.3248236813350551,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0007740180788715606,
      "loss": 0.7454,
      "step": 6540
    },
    {
      "epoch": 0.32532035363067446,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0007739783450879111,
      "loss": 0.8268,
      "step": 6550
    },
    {
      "epoch": 0.32581702592629386,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0007739386113042615,
      "loss": 0.7481,
      "step": 6560
    },
    {
      "epoch": 0.3263136982219132,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0007738988775206119,
      "loss": 0.742,
      "step": 6570
    },
    {
      "epoch": 0.32681037051753253,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0007738591437369624,
      "loss": 0.7556,
      "step": 6580
    },
    {
      "epoch": 0.32730704281315187,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0007738194099533129,
      "loss": 0.7327,
      "step": 6590
    },
    {
      "epoch": 0.3278037151087712,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0007737796761696633,
      "loss": 0.7419,
      "step": 6600
    },
    {
      "epoch": 0.3283003874043906,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0007737399423860138,
      "loss": 0.7433,
      "step": 6610
    },
    {
      "epoch": 0.32879705970000994,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0007737002086023642,
      "loss": 0.7658,
      "step": 6620
    },
    {
      "epoch": 0.3292937319956293,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0007736604748187146,
      "loss": 0.7514,
      "step": 6630
    },
    {
      "epoch": 0.3297904042912486,
      "grad_norm": 0.1796875,
      "learning_rate": 0.000773620741035065,
      "loss": 0.7481,
      "step": 6640
    },
    {
      "epoch": 0.330287076586868,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0007735810072514156,
      "loss": 0.741,
      "step": 6650
    },
    {
      "epoch": 0.33078374888248735,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.000773541273467766,
      "loss": 0.7469,
      "step": 6660
    },
    {
      "epoch": 0.3312804211781067,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0007735015396841164,
      "loss": 0.7719,
      "step": 6670
    },
    {
      "epoch": 0.331777093473726,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0007734618059004669,
      "loss": 0.7762,
      "step": 6680
    },
    {
      "epoch": 0.33227376576934536,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0007734220721168174,
      "loss": 0.7379,
      "step": 6690
    },
    {
      "epoch": 0.33277043806496476,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0007733823383331678,
      "loss": 0.7259,
      "step": 6700
    },
    {
      "epoch": 0.3332671103605841,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0007733426045495183,
      "loss": 0.7645,
      "step": 6710
    },
    {
      "epoch": 0.33376378265620343,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0007733028707658687,
      "loss": 0.7616,
      "step": 6720
    },
    {
      "epoch": 0.33426045495182277,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0007732631369822191,
      "loss": 0.7393,
      "step": 6730
    },
    {
      "epoch": 0.3347571272474421,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0007732234031985697,
      "loss": 0.7931,
      "step": 6740
    },
    {
      "epoch": 0.3352537995430615,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0007731836694149201,
      "loss": 0.7229,
      "step": 6750
    },
    {
      "epoch": 0.33575047183868084,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0007731439356312705,
      "loss": 0.7394,
      "step": 6760
    },
    {
      "epoch": 0.3362471441343002,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.000773104201847621,
      "loss": 0.7355,
      "step": 6770
    },
    {
      "epoch": 0.3367438164299195,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0007730644680639714,
      "loss": 0.7552,
      "step": 6780
    },
    {
      "epoch": 0.3372404887255389,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007730247342803219,
      "loss": 0.7536,
      "step": 6790
    },
    {
      "epoch": 0.33773716102115825,
      "grad_norm": 0.203125,
      "learning_rate": 0.0007729850004966724,
      "loss": 0.7641,
      "step": 6800
    },
    {
      "epoch": 0.3382338333167776,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0007729452667130228,
      "loss": 0.7434,
      "step": 6810
    },
    {
      "epoch": 0.3387305056123969,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007729055329293732,
      "loss": 0.7578,
      "step": 6820
    },
    {
      "epoch": 0.33922717790801626,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0007728657991457236,
      "loss": 0.7551,
      "step": 6830
    },
    {
      "epoch": 0.33972385020363566,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0007728260653620742,
      "loss": 0.7743,
      "step": 6840
    },
    {
      "epoch": 0.340220522499255,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0007727863315784246,
      "loss": 0.7424,
      "step": 6850
    },
    {
      "epoch": 0.34071719479487433,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.000772746597794775,
      "loss": 0.7685,
      "step": 6860
    },
    {
      "epoch": 0.34121386709049367,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007727068640111255,
      "loss": 0.7318,
      "step": 6870
    },
    {
      "epoch": 0.34171053938611307,
      "grad_norm": 0.169921875,
      "learning_rate": 0.000772667130227476,
      "loss": 0.7452,
      "step": 6880
    },
    {
      "epoch": 0.3422072116817324,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0007726273964438263,
      "loss": 0.7754,
      "step": 6890
    },
    {
      "epoch": 0.34270388397735174,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0007725876626601769,
      "loss": 0.763,
      "step": 6900
    },
    {
      "epoch": 0.3432005562729711,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007725479288765273,
      "loss": 0.7346,
      "step": 6910
    },
    {
      "epoch": 0.3436972285685904,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0007725081950928777,
      "loss": 0.7633,
      "step": 6920
    },
    {
      "epoch": 0.3441939008642098,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0007724684613092282,
      "loss": 0.7258,
      "step": 6930
    },
    {
      "epoch": 0.34469057315982915,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0007724287275255787,
      "loss": 0.7323,
      "step": 6940
    },
    {
      "epoch": 0.3451872454554485,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0007723889937419291,
      "loss": 0.7417,
      "step": 6950
    },
    {
      "epoch": 0.3456839177510678,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0007723492599582796,
      "loss": 0.7511,
      "step": 6960
    },
    {
      "epoch": 0.3461805900466872,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.00077230952617463,
      "loss": 0.703,
      "step": 6970
    },
    {
      "epoch": 0.34667726234230656,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0007722697923909804,
      "loss": 0.7316,
      "step": 6980
    },
    {
      "epoch": 0.3471739346379259,
      "grad_norm": 0.185546875,
      "learning_rate": 0.000772230058607331,
      "loss": 0.7663,
      "step": 6990
    },
    {
      "epoch": 0.34767060693354523,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0007721903248236814,
      "loss": 0.7679,
      "step": 7000
    },
    {
      "epoch": 0.3481672792291646,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0007721505910400319,
      "loss": 0.7432,
      "step": 7010
    },
    {
      "epoch": 0.34866395152478397,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0007721108572563822,
      "loss": 0.7137,
      "step": 7020
    },
    {
      "epoch": 0.3491606238204033,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0007720711234727327,
      "loss": 0.7484,
      "step": 7030
    },
    {
      "epoch": 0.34965729611602264,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0007720313896890833,
      "loss": 0.8066,
      "step": 7040
    },
    {
      "epoch": 0.350153968411642,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0007719916559054336,
      "loss": 0.7591,
      "step": 7050
    },
    {
      "epoch": 0.3506506407072614,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0007719519221217841,
      "loss": 0.7204,
      "step": 7060
    },
    {
      "epoch": 0.3511473130028807,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0007719121883381346,
      "loss": 0.7619,
      "step": 7070
    },
    {
      "epoch": 0.35164398529850005,
      "grad_norm": 0.171875,
      "learning_rate": 0.0007718724545544849,
      "loss": 0.7494,
      "step": 7080
    },
    {
      "epoch": 0.3521406575941194,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0007718327207708355,
      "loss": 0.7119,
      "step": 7090
    },
    {
      "epoch": 0.3526373298897387,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0007717929869871859,
      "loss": 0.74,
      "step": 7100
    },
    {
      "epoch": 0.3531340021853581,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0007717532532035363,
      "loss": 0.7364,
      "step": 7110
    },
    {
      "epoch": 0.35363067448097746,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0007717135194198868,
      "loss": 0.723,
      "step": 7120
    },
    {
      "epoch": 0.3541273467765968,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0007716737856362372,
      "loss": 0.7895,
      "step": 7130
    },
    {
      "epoch": 0.35462401907221613,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0007716340518525876,
      "loss": 0.7586,
      "step": 7140
    },
    {
      "epoch": 0.35512069136783553,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0007715943180689382,
      "loss": 0.7063,
      "step": 7150
    },
    {
      "epoch": 0.35561736366345487,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0007715545842852886,
      "loss": 0.7826,
      "step": 7160
    },
    {
      "epoch": 0.3561140359590742,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0007715148505016391,
      "loss": 0.7246,
      "step": 7170
    },
    {
      "epoch": 0.35661070825469354,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0007714751167179895,
      "loss": 0.7159,
      "step": 7180
    },
    {
      "epoch": 0.3571073805503129,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.00077143538293434,
      "loss": 0.7204,
      "step": 7190
    },
    {
      "epoch": 0.3576040528459323,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0007713956491506905,
      "loss": 0.7538,
      "step": 7200
    },
    {
      "epoch": 0.3581007251415516,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0007713559153670409,
      "loss": 0.7469,
      "step": 7210
    },
    {
      "epoch": 0.35859739743717095,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0007713161815833913,
      "loss": 0.7408,
      "step": 7220
    },
    {
      "epoch": 0.3590940697327903,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0007712764477997418,
      "loss": 0.7432,
      "step": 7230
    },
    {
      "epoch": 0.3595907420284097,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0007712367140160921,
      "loss": 0.7366,
      "step": 7240
    },
    {
      "epoch": 0.360087414324029,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0007711969802324427,
      "loss": 0.728,
      "step": 7250
    },
    {
      "epoch": 0.36058408661964836,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0007711572464487932,
      "loss": 0.7584,
      "step": 7260
    },
    {
      "epoch": 0.3610807589152677,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0007711175126651435,
      "loss": 0.6997,
      "step": 7270
    },
    {
      "epoch": 0.36157743121088703,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000771077778881494,
      "loss": 0.7144,
      "step": 7280
    },
    {
      "epoch": 0.36207410350650643,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0007710380450978444,
      "loss": 0.728,
      "step": 7290
    },
    {
      "epoch": 0.36257077580212577,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0007709983113141949,
      "loss": 0.7011,
      "step": 7300
    },
    {
      "epoch": 0.3630674480977451,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007709585775305454,
      "loss": 0.7655,
      "step": 7310
    },
    {
      "epoch": 0.36356412039336444,
      "grad_norm": 0.1875,
      "learning_rate": 0.0007709188437468958,
      "loss": 0.7247,
      "step": 7320
    },
    {
      "epoch": 0.3640607926889838,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007708791099632463,
      "loss": 0.7441,
      "step": 7330
    },
    {
      "epoch": 0.3645574649846032,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0007708393761795967,
      "loss": 0.7515,
      "step": 7340
    },
    {
      "epoch": 0.3650541372802225,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0007707996423959472,
      "loss": 0.7171,
      "step": 7350
    },
    {
      "epoch": 0.36555080957584185,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0007707599086122977,
      "loss": 0.6862,
      "step": 7360
    },
    {
      "epoch": 0.3660474818714612,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0007707201748286481,
      "loss": 0.706,
      "step": 7370
    },
    {
      "epoch": 0.3665441541670806,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0007706804410449985,
      "loss": 0.7725,
      "step": 7380
    },
    {
      "epoch": 0.3670408264626999,
      "grad_norm": 0.15625,
      "learning_rate": 0.000770640707261349,
      "loss": 0.7314,
      "step": 7390
    },
    {
      "epoch": 0.36753749875831926,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0007706009734776995,
      "loss": 0.7398,
      "step": 7400
    },
    {
      "epoch": 0.3680341710539386,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0007705612396940499,
      "loss": 0.7266,
      "step": 7410
    },
    {
      "epoch": 0.36853084334955793,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0007705215059104004,
      "loss": 0.7625,
      "step": 7420
    },
    {
      "epoch": 0.36902751564517733,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0007704817721267507,
      "loss": 0.716,
      "step": 7430
    },
    {
      "epoch": 0.36952418794079667,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0007704420383431012,
      "loss": 0.7418,
      "step": 7440
    },
    {
      "epoch": 0.370020860236416,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0007704023045594518,
      "loss": 0.7125,
      "step": 7450
    },
    {
      "epoch": 0.37051753253203534,
      "grad_norm": 0.1875,
      "learning_rate": 0.0007703625707758022,
      "loss": 0.7312,
      "step": 7460
    },
    {
      "epoch": 0.37101420482765474,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0007703228369921526,
      "loss": 0.7424,
      "step": 7470
    },
    {
      "epoch": 0.3715108771232741,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0007702831032085031,
      "loss": 0.7156,
      "step": 7480
    },
    {
      "epoch": 0.3720075494188934,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0007702433694248535,
      "loss": 0.7348,
      "step": 7490
    },
    {
      "epoch": 0.37250422171451275,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.000770203635641204,
      "loss": 0.6993,
      "step": 7500
    },
    {
      "epoch": 0.3730008940101321,
      "grad_norm": 0.171875,
      "learning_rate": 0.0007701639018575544,
      "loss": 0.7259,
      "step": 7510
    },
    {
      "epoch": 0.3734975663057515,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0007701241680739049,
      "loss": 0.681,
      "step": 7520
    },
    {
      "epoch": 0.3739942386013708,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0007700844342902553,
      "loss": 0.734,
      "step": 7530
    },
    {
      "epoch": 0.37449091089699016,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0007700447005066057,
      "loss": 0.7473,
      "step": 7540
    },
    {
      "epoch": 0.3749875831926095,
      "grad_norm": 0.1875,
      "learning_rate": 0.0007700049667229563,
      "loss": 0.7197,
      "step": 7550
    },
    {
      "epoch": 0.3754842554882289,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0007699652329393067,
      "loss": 0.7397,
      "step": 7560
    },
    {
      "epoch": 0.37598092778384823,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0007699254991556571,
      "loss": 0.749,
      "step": 7570
    },
    {
      "epoch": 0.37647760007946757,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0007698857653720076,
      "loss": 0.7399,
      "step": 7580
    },
    {
      "epoch": 0.3769742723750869,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000769846031588358,
      "loss": 0.7477,
      "step": 7590
    },
    {
      "epoch": 0.37747094467070624,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0007698062978047085,
      "loss": 0.7321,
      "step": 7600
    },
    {
      "epoch": 0.37796761696632564,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.000769766564021059,
      "loss": 0.7328,
      "step": 7610
    },
    {
      "epoch": 0.378464289261945,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007697268302374094,
      "loss": 0.7521,
      "step": 7620
    },
    {
      "epoch": 0.3789609615575643,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0007696870964537598,
      "loss": 0.762,
      "step": 7630
    },
    {
      "epoch": 0.37945763385318365,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0007696473626701103,
      "loss": 0.7221,
      "step": 7640
    },
    {
      "epoch": 0.37995430614880304,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0007696076288864608,
      "loss": 0.7237,
      "step": 7650
    },
    {
      "epoch": 0.3804509784444224,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0007695678951028112,
      "loss": 0.7303,
      "step": 7660
    },
    {
      "epoch": 0.3809476507400417,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0007695281613191617,
      "loss": 0.7715,
      "step": 7670
    },
    {
      "epoch": 0.38144432303566106,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0007694884275355121,
      "loss": 0.7481,
      "step": 7680
    },
    {
      "epoch": 0.3819409953312804,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0007694486937518625,
      "loss": 0.7587,
      "step": 7690
    },
    {
      "epoch": 0.3824376676268998,
      "grad_norm": 0.166015625,
      "learning_rate": 0.000769408959968213,
      "loss": 0.7155,
      "step": 7700
    },
    {
      "epoch": 0.38293433992251913,
      "grad_norm": 0.171875,
      "learning_rate": 0.0007693692261845635,
      "loss": 0.7326,
      "step": 7710
    },
    {
      "epoch": 0.38343101221813847,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0007693294924009139,
      "loss": 0.7087,
      "step": 7720
    },
    {
      "epoch": 0.3839276845137578,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0007692897586172643,
      "loss": 0.7131,
      "step": 7730
    },
    {
      "epoch": 0.3844243568093772,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0007692500248336148,
      "loss": 0.7382,
      "step": 7740
    },
    {
      "epoch": 0.38492102910499654,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0007692102910499653,
      "loss": 0.7186,
      "step": 7750
    },
    {
      "epoch": 0.3854177014006159,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0007691705572663157,
      "loss": 0.7351,
      "step": 7760
    },
    {
      "epoch": 0.3859143736962352,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0007691308234826662,
      "loss": 0.7372,
      "step": 7770
    },
    {
      "epoch": 0.38641104599185455,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0007690910896990166,
      "loss": 0.751,
      "step": 7780
    },
    {
      "epoch": 0.38690771828747395,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.000769051355915367,
      "loss": 0.7708,
      "step": 7790
    },
    {
      "epoch": 0.3874043905830933,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0007690116221317176,
      "loss": 0.7545,
      "step": 7800
    },
    {
      "epoch": 0.3879010628787126,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000768971888348068,
      "loss": 0.7645,
      "step": 7810
    },
    {
      "epoch": 0.38839773517433196,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0007689321545644184,
      "loss": 0.7348,
      "step": 7820
    },
    {
      "epoch": 0.38889440746995135,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0007688924207807689,
      "loss": 0.7003,
      "step": 7830
    },
    {
      "epoch": 0.3893910797655707,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0007688526869971193,
      "loss": 0.7449,
      "step": 7840
    },
    {
      "epoch": 0.38988775206119003,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0007688129532134698,
      "loss": 0.7048,
      "step": 7850
    },
    {
      "epoch": 0.39038442435680937,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0007687732194298203,
      "loss": 0.6932,
      "step": 7860
    },
    {
      "epoch": 0.3908810966524287,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0007687334856461707,
      "loss": 0.6957,
      "step": 7870
    },
    {
      "epoch": 0.3913777689480481,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0007686937518625211,
      "loss": 0.7196,
      "step": 7880
    },
    {
      "epoch": 0.39187444124366744,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0007686540180788715,
      "loss": 0.7493,
      "step": 7890
    },
    {
      "epoch": 0.3923711135392868,
      "grad_norm": 0.171875,
      "learning_rate": 0.0007686142842952221,
      "loss": 0.7667,
      "step": 7900
    },
    {
      "epoch": 0.3928677858349061,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0007685745505115726,
      "loss": 0.7573,
      "step": 7910
    },
    {
      "epoch": 0.39336445813052545,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0007685348167279229,
      "loss": 0.7438,
      "step": 7920
    },
    {
      "epoch": 0.39386113042614485,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0007684950829442734,
      "loss": 0.7369,
      "step": 7930
    },
    {
      "epoch": 0.3943578027217642,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007684553491606239,
      "loss": 0.7336,
      "step": 7940
    },
    {
      "epoch": 0.3948544750173835,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0007684156153769743,
      "loss": 0.7205,
      "step": 7950
    },
    {
      "epoch": 0.39535114731300286,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0007683758815933248,
      "loss": 0.699,
      "step": 7960
    },
    {
      "epoch": 0.39584781960862225,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0007683361478096752,
      "loss": 0.7284,
      "step": 7970
    },
    {
      "epoch": 0.3963444919042416,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007682964140260256,
      "loss": 0.727,
      "step": 7980
    },
    {
      "epoch": 0.39684116419986093,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0007682566802423761,
      "loss": 0.7521,
      "step": 7990
    },
    {
      "epoch": 0.39733783649548027,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0007682169464587266,
      "loss": 0.7427,
      "step": 8000
    },
    {
      "epoch": 0.3978345087910996,
      "grad_norm": 0.16796875,
      "learning_rate": 0.000768177212675077,
      "loss": 0.6822,
      "step": 8010
    },
    {
      "epoch": 0.398331181086719,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0007681374788914275,
      "loss": 0.718,
      "step": 8020
    },
    {
      "epoch": 0.39882785338233834,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0007680977451077779,
      "loss": 0.7153,
      "step": 8030
    },
    {
      "epoch": 0.3993245256779577,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007680580113241283,
      "loss": 0.7443,
      "step": 8040
    },
    {
      "epoch": 0.399821197973577,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0007680182775404789,
      "loss": 0.7849,
      "step": 8050
    },
    {
      "epoch": 0.4003178702691964,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0007679785437568293,
      "loss": 0.7288,
      "step": 8060
    },
    {
      "epoch": 0.40081454256481575,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0007679388099731798,
      "loss": 0.7566,
      "step": 8070
    },
    {
      "epoch": 0.4013112148604351,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0007678990761895302,
      "loss": 0.7008,
      "step": 8080
    },
    {
      "epoch": 0.4018078871560544,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0007678593424058806,
      "loss": 0.754,
      "step": 8090
    },
    {
      "epoch": 0.40230455945167376,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007678196086222312,
      "loss": 0.7161,
      "step": 8100
    },
    {
      "epoch": 0.40280123174729315,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0007677798748385815,
      "loss": 0.7508,
      "step": 8110
    },
    {
      "epoch": 0.4032979040429125,
      "grad_norm": 0.158203125,
      "learning_rate": 0.000767740141054932,
      "loss": 0.7183,
      "step": 8120
    },
    {
      "epoch": 0.40379457633853183,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0007677004072712825,
      "loss": 0.7561,
      "step": 8130
    },
    {
      "epoch": 0.40429124863415117,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0007676606734876328,
      "loss": 0.7123,
      "step": 8140
    },
    {
      "epoch": 0.40478792092977056,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0007676209397039834,
      "loss": 0.7231,
      "step": 8150
    },
    {
      "epoch": 0.4052845932253899,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0007675812059203338,
      "loss": 0.7267,
      "step": 8160
    },
    {
      "epoch": 0.40578126552100924,
      "grad_norm": 0.171875,
      "learning_rate": 0.0007675414721366842,
      "loss": 0.7173,
      "step": 8170
    },
    {
      "epoch": 0.4062779378166286,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0007675017383530347,
      "loss": 0.7031,
      "step": 8180
    },
    {
      "epoch": 0.4067746101122479,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007674620045693851,
      "loss": 0.7208,
      "step": 8190
    },
    {
      "epoch": 0.4072712824078673,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0007674222707857355,
      "loss": 0.7613,
      "step": 8200
    },
    {
      "epoch": 0.40776795470348665,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0007673825370020861,
      "loss": 0.7161,
      "step": 8210
    },
    {
      "epoch": 0.408264626999106,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0007673428032184365,
      "loss": 0.7485,
      "step": 8220
    },
    {
      "epoch": 0.4087612992947253,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.000767303069434787,
      "loss": 0.7091,
      "step": 8230
    },
    {
      "epoch": 0.4092579715903447,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0007672633356511374,
      "loss": 0.6908,
      "step": 8240
    },
    {
      "epoch": 0.40975464388596405,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0007672236018674879,
      "loss": 0.7208,
      "step": 8250
    },
    {
      "epoch": 0.4102513161815834,
      "grad_norm": 0.171875,
      "learning_rate": 0.0007671838680838384,
      "loss": 0.735,
      "step": 8260
    },
    {
      "epoch": 0.41074798847720273,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0007671441343001888,
      "loss": 0.7397,
      "step": 8270
    },
    {
      "epoch": 0.41124466077282207,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0007671044005165392,
      "loss": 0.7125,
      "step": 8280
    },
    {
      "epoch": 0.41174133306844146,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0007670646667328897,
      "loss": 0.7101,
      "step": 8290
    },
    {
      "epoch": 0.4122380053640608,
      "grad_norm": 0.173828125,
      "learning_rate": 0.00076702493294924,
      "loss": 0.74,
      "step": 8300
    },
    {
      "epoch": 0.41273467765968014,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0007669851991655906,
      "loss": 0.7184,
      "step": 8310
    },
    {
      "epoch": 0.4132313499552995,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007669454653819411,
      "loss": 0.7223,
      "step": 8320
    },
    {
      "epoch": 0.41372802225091887,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0007669057315982914,
      "loss": 0.7655,
      "step": 8330
    },
    {
      "epoch": 0.4142246945465382,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007668659978146419,
      "loss": 0.7088,
      "step": 8340
    },
    {
      "epoch": 0.41472136684215755,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0007668262640309925,
      "loss": 0.7325,
      "step": 8350
    },
    {
      "epoch": 0.4152180391377769,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0007667865302473429,
      "loss": 0.7189,
      "step": 8360
    },
    {
      "epoch": 0.4157147114333962,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0007667467964636933,
      "loss": 0.7222,
      "step": 8370
    },
    {
      "epoch": 0.4162113837290156,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0007667070626800437,
      "loss": 0.7308,
      "step": 8380
    },
    {
      "epoch": 0.41670805602463495,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0007666673288963942,
      "loss": 0.6973,
      "step": 8390
    },
    {
      "epoch": 0.4172047283202543,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0007666275951127447,
      "loss": 0.6914,
      "step": 8400
    },
    {
      "epoch": 0.41770140061587363,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0007665878613290951,
      "loss": 0.72,
      "step": 8410
    },
    {
      "epoch": 0.418198072911493,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007665481275454456,
      "loss": 0.6967,
      "step": 8420
    },
    {
      "epoch": 0.41869474520711236,
      "grad_norm": 0.15234375,
      "learning_rate": 0.000766508393761796,
      "loss": 0.7139,
      "step": 8430
    },
    {
      "epoch": 0.4191914175027317,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0007664686599781464,
      "loss": 0.7003,
      "step": 8440
    },
    {
      "epoch": 0.41968808979835104,
      "grad_norm": 0.150390625,
      "learning_rate": 0.000766428926194497,
      "loss": 0.7177,
      "step": 8450
    },
    {
      "epoch": 0.4201847620939704,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0007663891924108474,
      "loss": 0.7192,
      "step": 8460
    },
    {
      "epoch": 0.42068143438958977,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0007663494586271978,
      "loss": 0.7029,
      "step": 8470
    },
    {
      "epoch": 0.4211781066852091,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0007663097248435483,
      "loss": 0.6977,
      "step": 8480
    },
    {
      "epoch": 0.42167477898082845,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007662699910598986,
      "loss": 0.7426,
      "step": 8490
    },
    {
      "epoch": 0.4221714512764478,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0007662302572762491,
      "loss": 0.7655,
      "step": 8500
    },
    {
      "epoch": 0.4226681235720671,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0007661905234925997,
      "loss": 0.7211,
      "step": 8510
    },
    {
      "epoch": 0.4231647958676865,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0007661507897089501,
      "loss": 0.7069,
      "step": 8520
    },
    {
      "epoch": 0.42366146816330585,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0007661110559253005,
      "loss": 0.7189,
      "step": 8530
    },
    {
      "epoch": 0.4241581404589252,
      "grad_norm": 0.1875,
      "learning_rate": 0.000766071322141651,
      "loss": 0.7167,
      "step": 8540
    },
    {
      "epoch": 0.42465481275454453,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0007660315883580014,
      "loss": 0.7307,
      "step": 8550
    },
    {
      "epoch": 0.4251514850501639,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0007659918545743519,
      "loss": 0.7289,
      "step": 8560
    },
    {
      "epoch": 0.42564815734578326,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0007659521207907023,
      "loss": 0.7157,
      "step": 8570
    },
    {
      "epoch": 0.4261448296414026,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0007659123870070528,
      "loss": 0.7354,
      "step": 8580
    },
    {
      "epoch": 0.42664150193702194,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0007658726532234032,
      "loss": 0.7431,
      "step": 8590
    },
    {
      "epoch": 0.4271381742326413,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0007658329194397536,
      "loss": 0.7369,
      "step": 8600
    },
    {
      "epoch": 0.42763484652826067,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0007657931856561042,
      "loss": 0.7348,
      "step": 8610
    },
    {
      "epoch": 0.42813151882388,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0007657534518724546,
      "loss": 0.7231,
      "step": 8620
    },
    {
      "epoch": 0.42862819111949935,
      "grad_norm": 0.1640625,
      "learning_rate": 0.000765713718088805,
      "loss": 0.7217,
      "step": 8630
    },
    {
      "epoch": 0.4291248634151187,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0007656739843051555,
      "loss": 0.7138,
      "step": 8640
    },
    {
      "epoch": 0.4296215357107381,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.000765634250521506,
      "loss": 0.7112,
      "step": 8650
    },
    {
      "epoch": 0.4301182080063574,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007655945167378564,
      "loss": 0.7388,
      "step": 8660
    },
    {
      "epoch": 0.43061488030197675,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0007655547829542069,
      "loss": 0.7088,
      "step": 8670
    },
    {
      "epoch": 0.4311115525975961,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0007655150491705573,
      "loss": 0.7148,
      "step": 8680
    },
    {
      "epoch": 0.43160822489321543,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0007654753153869077,
      "loss": 0.7137,
      "step": 8690
    },
    {
      "epoch": 0.4321048971888348,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0007654355816032582,
      "loss": 0.6875,
      "step": 8700
    },
    {
      "epoch": 0.43260156948445416,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0007653958478196087,
      "loss": 0.6891,
      "step": 8710
    },
    {
      "epoch": 0.4330982417800735,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0007653561140359591,
      "loss": 0.7064,
      "step": 8720
    },
    {
      "epoch": 0.43359491407569284,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0007653163802523096,
      "loss": 0.7231,
      "step": 8730
    },
    {
      "epoch": 0.43409158637131223,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.00076527664646866,
      "loss": 0.7066,
      "step": 8740
    },
    {
      "epoch": 0.43458825866693157,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0007652369126850104,
      "loss": 0.7,
      "step": 8750
    },
    {
      "epoch": 0.4350849309625509,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0007651971789013609,
      "loss": 0.7378,
      "step": 8760
    },
    {
      "epoch": 0.43558160325817025,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0007651574451177114,
      "loss": 0.7336,
      "step": 8770
    },
    {
      "epoch": 0.4360782755537896,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0007651177113340618,
      "loss": 0.7575,
      "step": 8780
    },
    {
      "epoch": 0.436574947849409,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0007650779775504122,
      "loss": 0.7354,
      "step": 8790
    },
    {
      "epoch": 0.4370716201450283,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007650382437667627,
      "loss": 0.7177,
      "step": 8800
    },
    {
      "epoch": 0.43756829244064765,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0007649985099831133,
      "loss": 0.7363,
      "step": 8810
    },
    {
      "epoch": 0.438064964736267,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0007649587761994636,
      "loss": 0.7019,
      "step": 8820
    },
    {
      "epoch": 0.4385616370318864,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007649190424158141,
      "loss": 0.6998,
      "step": 8830
    },
    {
      "epoch": 0.4390583093275057,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0007648793086321645,
      "loss": 0.7236,
      "step": 8840
    },
    {
      "epoch": 0.43955498162312506,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0007648395748485149,
      "loss": 0.7097,
      "step": 8850
    },
    {
      "epoch": 0.4400516539187444,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007647998410648655,
      "loss": 0.6748,
      "step": 8860
    },
    {
      "epoch": 0.44054832621436374,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0007647601072812159,
      "loss": 0.6921,
      "step": 8870
    },
    {
      "epoch": 0.44104499850998313,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007647203734975663,
      "loss": 0.7079,
      "step": 8880
    },
    {
      "epoch": 0.44154167080560247,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0007646806397139168,
      "loss": 0.7137,
      "step": 8890
    },
    {
      "epoch": 0.4420383431012218,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0007646409059302672,
      "loss": 0.7328,
      "step": 8900
    },
    {
      "epoch": 0.44253501539684115,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0007646011721466177,
      "loss": 0.7409,
      "step": 8910
    },
    {
      "epoch": 0.44303168769246054,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0007645614383629682,
      "loss": 0.7505,
      "step": 8920
    },
    {
      "epoch": 0.4435283599880799,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0007645217045793186,
      "loss": 0.7348,
      "step": 8930
    },
    {
      "epoch": 0.4440250322836992,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.000764481970795669,
      "loss": 0.7477,
      "step": 8940
    },
    {
      "epoch": 0.44452170457931856,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0007644422370120194,
      "loss": 0.71,
      "step": 8950
    },
    {
      "epoch": 0.4450183768749379,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.00076440250322837,
      "loss": 0.7137,
      "step": 8960
    },
    {
      "epoch": 0.4455150491705573,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0007643627694447205,
      "loss": 0.7641,
      "step": 8970
    },
    {
      "epoch": 0.4460117214661766,
      "grad_norm": 0.203125,
      "learning_rate": 0.0007643230356610708,
      "loss": 0.699,
      "step": 8980
    },
    {
      "epoch": 0.44650839376179596,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0007642833018774213,
      "loss": 0.6906,
      "step": 8990
    },
    {
      "epoch": 0.4470050660574153,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0007642435680937718,
      "loss": 0.7058,
      "step": 9000
    },
    {
      "epoch": 0.4475017383530347,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0007642038343101222,
      "loss": 0.7377,
      "step": 9010
    },
    {
      "epoch": 0.44799841064865403,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0007641641005264727,
      "loss": 0.6808,
      "step": 9020
    },
    {
      "epoch": 0.44849508294427337,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0007641243667428231,
      "loss": 0.7154,
      "step": 9030
    },
    {
      "epoch": 0.4489917552398927,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007640846329591735,
      "loss": 0.7077,
      "step": 9040
    },
    {
      "epoch": 0.44948842753551205,
      "grad_norm": 0.162109375,
      "learning_rate": 0.000764044899175524,
      "loss": 0.6977,
      "step": 9050
    },
    {
      "epoch": 0.44998509983113144,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0007640051653918745,
      "loss": 0.7314,
      "step": 9060
    },
    {
      "epoch": 0.4504817721267508,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0007639654316082249,
      "loss": 0.7332,
      "step": 9070
    },
    {
      "epoch": 0.4509784444223701,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007639256978245754,
      "loss": 0.7256,
      "step": 9080
    },
    {
      "epoch": 0.45147511671798946,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0007638859640409258,
      "loss": 0.6945,
      "step": 9090
    },
    {
      "epoch": 0.4519717890136088,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0007638462302572763,
      "loss": 0.7337,
      "step": 9100
    },
    {
      "epoch": 0.4524684613092282,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007638064964736268,
      "loss": 0.7143,
      "step": 9110
    },
    {
      "epoch": 0.4529651336048475,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0007637667626899772,
      "loss": 0.7248,
      "step": 9120
    },
    {
      "epoch": 0.45346180590046686,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007637270289063277,
      "loss": 0.7323,
      "step": 9130
    },
    {
      "epoch": 0.4539584781960862,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0007636872951226781,
      "loss": 0.7023,
      "step": 9140
    },
    {
      "epoch": 0.4544551504917056,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0007636475613390285,
      "loss": 0.7105,
      "step": 9150
    },
    {
      "epoch": 0.45495182278732493,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0007636078275553791,
      "loss": 0.7187,
      "step": 9160
    },
    {
      "epoch": 0.45544849508294427,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0007635680937717294,
      "loss": 0.7122,
      "step": 9170
    },
    {
      "epoch": 0.4559451673785636,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007635283599880799,
      "loss": 0.7229,
      "step": 9180
    },
    {
      "epoch": 0.45644183967418295,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0007634886262044304,
      "loss": 0.7008,
      "step": 9190
    },
    {
      "epoch": 0.45693851196980234,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007634488924207807,
      "loss": 0.6972,
      "step": 9200
    },
    {
      "epoch": 0.4574351842654217,
      "grad_norm": 0.140625,
      "learning_rate": 0.0007634091586371313,
      "loss": 0.6998,
      "step": 9210
    },
    {
      "epoch": 0.457931856561041,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0007633694248534817,
      "loss": 0.7409,
      "step": 9220
    },
    {
      "epoch": 0.45842852885666036,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0007633296910698321,
      "loss": 0.7144,
      "step": 9230
    },
    {
      "epoch": 0.45892520115227975,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0007632899572861826,
      "loss": 0.7273,
      "step": 9240
    },
    {
      "epoch": 0.4594218734478991,
      "grad_norm": 0.171875,
      "learning_rate": 0.000763250223502533,
      "loss": 0.7022,
      "step": 9250
    },
    {
      "epoch": 0.4599185457435184,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0007632104897188836,
      "loss": 0.7172,
      "step": 9260
    },
    {
      "epoch": 0.46041521803913776,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.000763170755935234,
      "loss": 0.7561,
      "step": 9270
    },
    {
      "epoch": 0.4609118903347571,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0007631310221515844,
      "loss": 0.7032,
      "step": 9280
    },
    {
      "epoch": 0.4614085626303765,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0007630912883679349,
      "loss": 0.7463,
      "step": 9290
    },
    {
      "epoch": 0.46190523492599583,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007630515545842853,
      "loss": 0.7138,
      "step": 9300
    },
    {
      "epoch": 0.46240190722161517,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007630118208006358,
      "loss": 0.7258,
      "step": 9310
    },
    {
      "epoch": 0.4628985795172345,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0007629720870169863,
      "loss": 0.7383,
      "step": 9320
    },
    {
      "epoch": 0.4633952518128539,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0007629323532333367,
      "loss": 0.7449,
      "step": 9330
    },
    {
      "epoch": 0.46389192410847324,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0007628926194496871,
      "loss": 0.7348,
      "step": 9340
    },
    {
      "epoch": 0.4643885964040926,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0007628528856660376,
      "loss": 0.7234,
      "step": 9350
    },
    {
      "epoch": 0.4648852686997119,
      "grad_norm": 0.146484375,
      "learning_rate": 0.000762813151882388,
      "loss": 0.6861,
      "step": 9360
    },
    {
      "epoch": 0.46538194099533126,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0007627734180987385,
      "loss": 0.6995,
      "step": 9370
    },
    {
      "epoch": 0.46587861329095065,
      "grad_norm": 0.169921875,
      "learning_rate": 0.000762733684315089,
      "loss": 0.6967,
      "step": 9380
    },
    {
      "epoch": 0.46637528558657,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0007626939505314393,
      "loss": 0.6964,
      "step": 9390
    },
    {
      "epoch": 0.4668719578821893,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0007626542167477898,
      "loss": 0.7155,
      "step": 9400
    },
    {
      "epoch": 0.46736863017780866,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0007626144829641404,
      "loss": 0.7281,
      "step": 9410
    },
    {
      "epoch": 0.46786530247342806,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0007625747491804908,
      "loss": 0.7683,
      "step": 9420
    },
    {
      "epoch": 0.4683619747690474,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0007625350153968412,
      "loss": 0.6822,
      "step": 9430
    },
    {
      "epoch": 0.46885864706466673,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0007624952816131916,
      "loss": 0.7145,
      "step": 9440
    },
    {
      "epoch": 0.46935531936028607,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0007624555478295421,
      "loss": 0.7266,
      "step": 9450
    },
    {
      "epoch": 0.4698519916559054,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0007624158140458926,
      "loss": 0.7053,
      "step": 9460
    },
    {
      "epoch": 0.4703486639515248,
      "grad_norm": 0.154296875,
      "learning_rate": 0.000762376080262243,
      "loss": 0.6892,
      "step": 9470
    },
    {
      "epoch": 0.47084533624714414,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007623363464785935,
      "loss": 0.7253,
      "step": 9480
    },
    {
      "epoch": 0.4713420085427635,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0007622966126949439,
      "loss": 0.7233,
      "step": 9490
    },
    {
      "epoch": 0.4718386808383828,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0007622568789112943,
      "loss": 0.7241,
      "step": 9500
    },
    {
      "epoch": 0.4723353531340022,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0007622171451276449,
      "loss": 0.7205,
      "step": 9510
    },
    {
      "epoch": 0.47283202542962155,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0007621774113439953,
      "loss": 0.7085,
      "step": 9520
    },
    {
      "epoch": 0.4733286977252409,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0007621376775603457,
      "loss": 0.6921,
      "step": 9530
    },
    {
      "epoch": 0.4738253700208602,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0007620979437766962,
      "loss": 0.7269,
      "step": 9540
    },
    {
      "epoch": 0.47432204231647956,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0007620582099930466,
      "loss": 0.7659,
      "step": 9550
    },
    {
      "epoch": 0.47481871461209896,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.000762018476209397,
      "loss": 0.7237,
      "step": 9560
    },
    {
      "epoch": 0.4753153869077183,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0007619787424257476,
      "loss": 0.7036,
      "step": 9570
    },
    {
      "epoch": 0.47581205920333763,
      "grad_norm": 0.189453125,
      "learning_rate": 0.000761939008642098,
      "loss": 0.7232,
      "step": 9580
    },
    {
      "epoch": 0.47630873149895697,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0007618992748584484,
      "loss": 0.6916,
      "step": 9590
    },
    {
      "epoch": 0.47680540379457637,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0007618595410747989,
      "loss": 0.6853,
      "step": 9600
    },
    {
      "epoch": 0.4773020760901957,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0007618198072911494,
      "loss": 0.6997,
      "step": 9610
    },
    {
      "epoch": 0.47779874838581504,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0007617800735074998,
      "loss": 0.7772,
      "step": 9620
    },
    {
      "epoch": 0.4782954206814344,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007617403397238502,
      "loss": 0.7037,
      "step": 9630
    },
    {
      "epoch": 0.4787920929770537,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0007617006059402007,
      "loss": 0.7249,
      "step": 9640
    },
    {
      "epoch": 0.4792887652726731,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0007616608721565511,
      "loss": 0.7063,
      "step": 9650
    },
    {
      "epoch": 0.47978543756829245,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0007616211383729015,
      "loss": 0.6947,
      "step": 9660
    },
    {
      "epoch": 0.4802821098639118,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0007615814045892521,
      "loss": 0.6985,
      "step": 9670
    },
    {
      "epoch": 0.4807787821595311,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0007615416708056025,
      "loss": 0.7313,
      "step": 9680
    },
    {
      "epoch": 0.48127545445515046,
      "grad_norm": 0.140625,
      "learning_rate": 0.0007615019370219529,
      "loss": 0.708,
      "step": 9690
    },
    {
      "epoch": 0.48177212675076986,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0007614622032383034,
      "loss": 0.7357,
      "step": 9700
    },
    {
      "epoch": 0.4822687990463892,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0007614224694546539,
      "loss": 0.7357,
      "step": 9710
    },
    {
      "epoch": 0.48276547134200853,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0007613827356710043,
      "loss": 0.6737,
      "step": 9720
    },
    {
      "epoch": 0.4832621436376279,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0007613430018873548,
      "loss": 0.6925,
      "step": 9730
    },
    {
      "epoch": 0.48375881593324727,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0007613032681037052,
      "loss": 0.6754,
      "step": 9740
    },
    {
      "epoch": 0.4842554882288666,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0007612635343200556,
      "loss": 0.7491,
      "step": 9750
    },
    {
      "epoch": 0.48475216052448594,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007612238005364062,
      "loss": 0.7246,
      "step": 9760
    },
    {
      "epoch": 0.4852488328201053,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0007611840667527566,
      "loss": 0.6921,
      "step": 9770
    },
    {
      "epoch": 0.4857455051157246,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.000761144332969107,
      "loss": 0.6853,
      "step": 9780
    },
    {
      "epoch": 0.486242177411344,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0007611045991854575,
      "loss": 0.6736,
      "step": 9790
    },
    {
      "epoch": 0.48673884970696335,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0007610648654018079,
      "loss": 0.7246,
      "step": 9800
    },
    {
      "epoch": 0.4872355220025827,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0007610251316181583,
      "loss": 0.7048,
      "step": 9810
    },
    {
      "epoch": 0.487732194298202,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0007609853978345088,
      "loss": 0.688,
      "step": 9820
    },
    {
      "epoch": 0.4882288665938214,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0007609456640508593,
      "loss": 0.7032,
      "step": 9830
    },
    {
      "epoch": 0.48872553888944076,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0007609059302672097,
      "loss": 0.6997,
      "step": 9840
    },
    {
      "epoch": 0.4892222111850601,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007608661964835601,
      "loss": 0.6674,
      "step": 9850
    },
    {
      "epoch": 0.48971888348067943,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0007608264626999106,
      "loss": 0.7512,
      "step": 9860
    },
    {
      "epoch": 0.4902155557762988,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0007607867289162612,
      "loss": 0.7171,
      "step": 9870
    },
    {
      "epoch": 0.49071222807191817,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0007607469951326115,
      "loss": 0.7149,
      "step": 9880
    },
    {
      "epoch": 0.4912089003675375,
      "grad_norm": 0.140625,
      "learning_rate": 0.000760707261348962,
      "loss": 0.6987,
      "step": 9890
    },
    {
      "epoch": 0.49170557266315684,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0007606675275653124,
      "loss": 0.728,
      "step": 9900
    },
    {
      "epoch": 0.4922022449587762,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0007606277937816628,
      "loss": 0.669,
      "step": 9910
    },
    {
      "epoch": 0.4926989172543956,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007605880599980134,
      "loss": 0.6901,
      "step": 9920
    },
    {
      "epoch": 0.4931955895500149,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0007605483262143638,
      "loss": 0.7053,
      "step": 9930
    },
    {
      "epoch": 0.49369226184563425,
      "grad_norm": 0.171875,
      "learning_rate": 0.0007605085924307142,
      "loss": 0.7132,
      "step": 9940
    },
    {
      "epoch": 0.4941889341412536,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007604688586470647,
      "loss": 0.6702,
      "step": 9950
    },
    {
      "epoch": 0.4946856064368729,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007604291248634151,
      "loss": 0.7449,
      "step": 9960
    },
    {
      "epoch": 0.4951822787324923,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0007603893910797656,
      "loss": 0.6888,
      "step": 9970
    },
    {
      "epoch": 0.49567895102811166,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0007603496572961161,
      "loss": 0.7041,
      "step": 9980
    },
    {
      "epoch": 0.496175623323731,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0007603099235124665,
      "loss": 0.7158,
      "step": 9990
    },
    {
      "epoch": 0.49667229561935033,
      "grad_norm": 0.15234375,
      "learning_rate": 0.000760270189728817,
      "loss": 0.7205,
      "step": 10000
    },
    {
      "epoch": 0.49716896791496973,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007602304559451674,
      "loss": 0.7384,
      "step": 10010
    },
    {
      "epoch": 0.49766564021058907,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0007601907221615179,
      "loss": 0.7441,
      "step": 10020
    },
    {
      "epoch": 0.4981623125062084,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0007601509883778684,
      "loss": 0.6916,
      "step": 10030
    },
    {
      "epoch": 0.49865898480182774,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007601112545942187,
      "loss": 0.7187,
      "step": 10040
    },
    {
      "epoch": 0.4991556570974471,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007600715208105692,
      "loss": 0.7011,
      "step": 10050
    },
    {
      "epoch": 0.4996523293930665,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0007600317870269198,
      "loss": 0.6988,
      "step": 10060
    },
    {
      "epoch": 0.5001490016886858,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0007599920532432701,
      "loss": 0.6829,
      "step": 10070
    },
    {
      "epoch": 0.5006456739843052,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0007599523194596206,
      "loss": 0.7256,
      "step": 10080
    },
    {
      "epoch": 0.5011423462799245,
      "grad_norm": 0.134765625,
      "learning_rate": 0.000759912585675971,
      "loss": 0.741,
      "step": 10090
    },
    {
      "epoch": 0.5016390185755438,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007598728518923214,
      "loss": 0.6929,
      "step": 10100
    },
    {
      "epoch": 0.5021356908711632,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0007598331181086719,
      "loss": 0.7239,
      "step": 10110
    },
    {
      "epoch": 0.5026323631667825,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0007597933843250224,
      "loss": 0.7027,
      "step": 10120
    },
    {
      "epoch": 0.503129035462402,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007597536505413728,
      "loss": 0.6563,
      "step": 10130
    },
    {
      "epoch": 0.5036257077580213,
      "grad_norm": 0.140625,
      "learning_rate": 0.0007597139167577233,
      "loss": 0.727,
      "step": 10140
    },
    {
      "epoch": 0.5041223800536406,
      "grad_norm": 0.234375,
      "learning_rate": 0.0007596741829740737,
      "loss": 0.7071,
      "step": 10150
    },
    {
      "epoch": 0.50461905234926,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0007596344491904242,
      "loss": 0.7103,
      "step": 10160
    },
    {
      "epoch": 0.5051157246448793,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0007595947154067747,
      "loss": 0.6813,
      "step": 10170
    },
    {
      "epoch": 0.5056123969404986,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0007595549816231251,
      "loss": 0.7,
      "step": 10180
    },
    {
      "epoch": 0.506109069236118,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0007595152478394756,
      "loss": 0.7448,
      "step": 10190
    },
    {
      "epoch": 0.5066057415317373,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000759475514055826,
      "loss": 0.6848,
      "step": 10200
    },
    {
      "epoch": 0.5071024138273567,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0007594357802721764,
      "loss": 0.7022,
      "step": 10210
    },
    {
      "epoch": 0.5075990861229761,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.000759396046488527,
      "loss": 0.6825,
      "step": 10220
    },
    {
      "epoch": 0.5080957584185954,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0007593563127048773,
      "loss": 0.6914,
      "step": 10230
    },
    {
      "epoch": 0.5085924307142148,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007593165789212278,
      "loss": 0.737,
      "step": 10240
    },
    {
      "epoch": 0.5090891030098341,
      "grad_norm": 0.140625,
      "learning_rate": 0.0007592768451375783,
      "loss": 0.6901,
      "step": 10250
    },
    {
      "epoch": 0.5095857753054535,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0007592371113539286,
      "loss": 0.7328,
      "step": 10260
    },
    {
      "epoch": 0.5100824476010728,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007591973775702792,
      "loss": 0.7049,
      "step": 10270
    },
    {
      "epoch": 0.5105791198966921,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0007591576437866297,
      "loss": 0.6783,
      "step": 10280
    },
    {
      "epoch": 0.5110757921923115,
      "grad_norm": 0.14453125,
      "learning_rate": 0.00075911791000298,
      "loss": 0.7185,
      "step": 10290
    },
    {
      "epoch": 0.5115724644879308,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0007590781762193305,
      "loss": 0.7185,
      "step": 10300
    },
    {
      "epoch": 0.5120691367835503,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007590384424356809,
      "loss": 0.7252,
      "step": 10310
    },
    {
      "epoch": 0.5125658090791696,
      "grad_norm": 0.140625,
      "learning_rate": 0.0007589987086520315,
      "loss": 0.7113,
      "step": 10320
    },
    {
      "epoch": 0.5130624813747889,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007589589748683819,
      "loss": 0.6794,
      "step": 10330
    },
    {
      "epoch": 0.5135591536704083,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0007589192410847323,
      "loss": 0.7233,
      "step": 10340
    },
    {
      "epoch": 0.5140558259660276,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007588795073010828,
      "loss": 0.6812,
      "step": 10350
    },
    {
      "epoch": 0.514552498261647,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007588397735174332,
      "loss": 0.7091,
      "step": 10360
    },
    {
      "epoch": 0.5150491705572663,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0007588000397337837,
      "loss": 0.734,
      "step": 10370
    },
    {
      "epoch": 0.5155458428528856,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007587603059501342,
      "loss": 0.7,
      "step": 10380
    },
    {
      "epoch": 0.516042515148505,
      "grad_norm": 0.140625,
      "learning_rate": 0.0007587205721664846,
      "loss": 0.6981,
      "step": 10390
    },
    {
      "epoch": 0.5165391874441244,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.000758680838382835,
      "loss": 0.7074,
      "step": 10400
    },
    {
      "epoch": 0.5170358597397438,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007586411045991855,
      "loss": 0.722,
      "step": 10410
    },
    {
      "epoch": 0.5175325320353631,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007586013708155359,
      "loss": 0.7269,
      "step": 10420
    },
    {
      "epoch": 0.5180292043309824,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007585616370318864,
      "loss": 0.7256,
      "step": 10430
    },
    {
      "epoch": 0.5185258766266018,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0007585219032482369,
      "loss": 0.711,
      "step": 10440
    },
    {
      "epoch": 0.5190225489222211,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0007584821694645873,
      "loss": 0.6722,
      "step": 10450
    },
    {
      "epoch": 0.5195192212178404,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007584424356809377,
      "loss": 0.6736,
      "step": 10460
    },
    {
      "epoch": 0.5200158935134598,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007584027018972883,
      "loss": 0.6942,
      "step": 10470
    },
    {
      "epoch": 0.5205125658090791,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007583629681136387,
      "loss": 0.6936,
      "step": 10480
    },
    {
      "epoch": 0.5210092381046986,
      "grad_norm": 0.125,
      "learning_rate": 0.0007583232343299891,
      "loss": 0.7083,
      "step": 10490
    },
    {
      "epoch": 0.5215059104003179,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007582835005463395,
      "loss": 0.7019,
      "step": 10500
    },
    {
      "epoch": 0.5220025826959372,
      "grad_norm": 0.126953125,
      "learning_rate": 0.00075824376676269,
      "loss": 0.7379,
      "step": 10510
    },
    {
      "epoch": 0.5224992549915566,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0007582040329790405,
      "loss": 0.6855,
      "step": 10520
    },
    {
      "epoch": 0.5229959272871759,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0007581642991953909,
      "loss": 0.7362,
      "step": 10530
    },
    {
      "epoch": 0.5234925995827953,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0007581245654117414,
      "loss": 0.6975,
      "step": 10540
    },
    {
      "epoch": 0.5239892718784146,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007580848316280918,
      "loss": 0.668,
      "step": 10550
    },
    {
      "epoch": 0.5244859441740339,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007580450978444422,
      "loss": 0.7077,
      "step": 10560
    },
    {
      "epoch": 0.5249826164696533,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0007580053640607928,
      "loss": 0.7183,
      "step": 10570
    },
    {
      "epoch": 0.5254792887652727,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0007579656302771432,
      "loss": 0.6935,
      "step": 10580
    },
    {
      "epoch": 0.5259759610608921,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007579258964934936,
      "loss": 0.7131,
      "step": 10590
    },
    {
      "epoch": 0.5264726333565114,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007578861627098441,
      "loss": 0.6672,
      "step": 10600
    },
    {
      "epoch": 0.5269693056521307,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007578464289261945,
      "loss": 0.6699,
      "step": 10610
    },
    {
      "epoch": 0.5274659779477501,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.000757806695142545,
      "loss": 0.6993,
      "step": 10620
    },
    {
      "epoch": 0.5279626502433694,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0007577669613588955,
      "loss": 0.6946,
      "step": 10630
    },
    {
      "epoch": 0.5284593225389888,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007577272275752459,
      "loss": 0.6683,
      "step": 10640
    },
    {
      "epoch": 0.5289559948346081,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007576874937915963,
      "loss": 0.7298,
      "step": 10650
    },
    {
      "epoch": 0.5294526671302274,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0007576477600079468,
      "loss": 0.6767,
      "step": 10660
    },
    {
      "epoch": 0.5299493394258469,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0007576080262242973,
      "loss": 0.7152,
      "step": 10670
    },
    {
      "epoch": 0.5304460117214662,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007575682924406477,
      "loss": 0.7154,
      "step": 10680
    },
    {
      "epoch": 0.5309426840170856,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007575285586569981,
      "loss": 0.6851,
      "step": 10690
    },
    {
      "epoch": 0.5314393563127049,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007574888248733486,
      "loss": 0.7228,
      "step": 10700
    },
    {
      "epoch": 0.5319360286083242,
      "grad_norm": 0.13671875,
      "learning_rate": 0.000757449091089699,
      "loss": 0.6955,
      "step": 10710
    },
    {
      "epoch": 0.5324327009039436,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007574093573060495,
      "loss": 0.6805,
      "step": 10720
    },
    {
      "epoch": 0.5329293731995629,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007573696235224,
      "loss": 0.6945,
      "step": 10730
    },
    {
      "epoch": 0.5334260454951822,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0007573298897387504,
      "loss": 0.6913,
      "step": 10740
    },
    {
      "epoch": 0.5339227177908016,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0007572901559551008,
      "loss": 0.6735,
      "step": 10750
    },
    {
      "epoch": 0.534419390086421,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0007572504221714513,
      "loss": 0.7134,
      "step": 10760
    },
    {
      "epoch": 0.5349160623820404,
      "grad_norm": 0.140625,
      "learning_rate": 0.0007572106883878018,
      "loss": 0.6831,
      "step": 10770
    },
    {
      "epoch": 0.5354127346776597,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0007571709546041522,
      "loss": 0.7085,
      "step": 10780
    },
    {
      "epoch": 0.535909406973279,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0007571312208205027,
      "loss": 0.6748,
      "step": 10790
    },
    {
      "epoch": 0.5364060792688984,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0007570914870368531,
      "loss": 0.7158,
      "step": 10800
    },
    {
      "epoch": 0.5369027515645177,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007570517532532035,
      "loss": 0.7052,
      "step": 10810
    },
    {
      "epoch": 0.5373994238601371,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007570120194695541,
      "loss": 0.7261,
      "step": 10820
    },
    {
      "epoch": 0.5378960961557564,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007569722856859045,
      "loss": 0.7455,
      "step": 10830
    },
    {
      "epoch": 0.5383927684513757,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007569325519022549,
      "loss": 0.6688,
      "step": 10840
    },
    {
      "epoch": 0.5388894407469952,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0007568928181186054,
      "loss": 0.6693,
      "step": 10850
    },
    {
      "epoch": 0.5393861130426145,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007568530843349558,
      "loss": 0.7121,
      "step": 10860
    },
    {
      "epoch": 0.5398827853382339,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007568133505513063,
      "loss": 0.6963,
      "step": 10870
    },
    {
      "epoch": 0.5403794576338532,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0007567736167676568,
      "loss": 0.7068,
      "step": 10880
    },
    {
      "epoch": 0.5408761299294725,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0007567338829840072,
      "loss": 0.6676,
      "step": 10890
    },
    {
      "epoch": 0.5413728022250919,
      "grad_norm": 0.125,
      "learning_rate": 0.0007566941492003577,
      "loss": 0.6815,
      "step": 10900
    },
    {
      "epoch": 0.5418694745207112,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.000756654415416708,
      "loss": 0.7308,
      "step": 10910
    },
    {
      "epoch": 0.5423661468163306,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0007566146816330586,
      "loss": 0.6691,
      "step": 10920
    },
    {
      "epoch": 0.5428628191119499,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0007565749478494091,
      "loss": 0.7001,
      "step": 10930
    },
    {
      "epoch": 0.5433594914075693,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0007565352140657594,
      "loss": 0.6703,
      "step": 10940
    },
    {
      "epoch": 0.5438561637031887,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0007564954802821099,
      "loss": 0.6909,
      "step": 10950
    },
    {
      "epoch": 0.544352835998808,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0007564557464984603,
      "loss": 0.6848,
      "step": 10960
    },
    {
      "epoch": 0.5448495082944274,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007564160127148107,
      "loss": 0.6682,
      "step": 10970
    },
    {
      "epoch": 0.5453461805900467,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007563762789311613,
      "loss": 0.7165,
      "step": 10980
    },
    {
      "epoch": 0.545842852885666,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007563365451475117,
      "loss": 0.6916,
      "step": 10990
    },
    {
      "epoch": 0.5463395251812854,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0007562968113638621,
      "loss": 0.7004,
      "step": 11000
    },
    {
      "epoch": 0.5468361974769047,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0007562570775802126,
      "loss": 0.7482,
      "step": 11010
    },
    {
      "epoch": 0.547332869772524,
      "grad_norm": 0.115234375,
      "learning_rate": 0.000756217343796563,
      "loss": 0.6794,
      "step": 11020
    },
    {
      "epoch": 0.5478295420681435,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007561776100129135,
      "loss": 0.7104,
      "step": 11030
    },
    {
      "epoch": 0.5483262143637628,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.000756137876229264,
      "loss": 0.681,
      "step": 11040
    },
    {
      "epoch": 0.5488228866593822,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0007560981424456144,
      "loss": 0.6743,
      "step": 11050
    },
    {
      "epoch": 0.5493195589550015,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0007560584086619649,
      "loss": 0.7129,
      "step": 11060
    },
    {
      "epoch": 0.5498162312506208,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0007560186748783154,
      "loss": 0.7309,
      "step": 11070
    },
    {
      "epoch": 0.5503129035462402,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0007559789410946658,
      "loss": 0.6973,
      "step": 11080
    },
    {
      "epoch": 0.5508095758418595,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007559392073110163,
      "loss": 0.6736,
      "step": 11090
    },
    {
      "epoch": 0.5513062481374789,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0007558994735273666,
      "loss": 0.6728,
      "step": 11100
    },
    {
      "epoch": 0.5518029204330982,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0007558597397437171,
      "loss": 0.6845,
      "step": 11110
    },
    {
      "epoch": 0.5522995927287176,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0007558200059600677,
      "loss": 0.6922,
      "step": 11120
    },
    {
      "epoch": 0.552796265024337,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.000755780272176418,
      "loss": 0.6936,
      "step": 11130
    },
    {
      "epoch": 0.5532929373199563,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007557405383927685,
      "loss": 0.6968,
      "step": 11140
    },
    {
      "epoch": 0.5537896096155757,
      "grad_norm": 0.12109375,
      "learning_rate": 0.000755700804609119,
      "loss": 0.6866,
      "step": 11150
    },
    {
      "epoch": 0.554286281911195,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007556610708254693,
      "loss": 0.6958,
      "step": 11160
    },
    {
      "epoch": 0.5547829542068143,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007556213370418198,
      "loss": 0.6782,
      "step": 11170
    },
    {
      "epoch": 0.5552796265024337,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007555816032581703,
      "loss": 0.6872,
      "step": 11180
    },
    {
      "epoch": 0.555776298798053,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007555418694745208,
      "loss": 0.6499,
      "step": 11190
    },
    {
      "epoch": 0.5562729710936724,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007555021356908712,
      "loss": 0.6933,
      "step": 11200
    },
    {
      "epoch": 0.5567696433892917,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0007554624019072216,
      "loss": 0.7007,
      "step": 11210
    },
    {
      "epoch": 0.5572663156849111,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007554226681235722,
      "loss": 0.7212,
      "step": 11220
    },
    {
      "epoch": 0.5577629879805305,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007553829343399226,
      "loss": 0.6869,
      "step": 11230
    },
    {
      "epoch": 0.5582596602761498,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.000755343200556273,
      "loss": 0.7108,
      "step": 11240
    },
    {
      "epoch": 0.5587563325717692,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007553034667726235,
      "loss": 0.7133,
      "step": 11250
    },
    {
      "epoch": 0.5592530048673885,
      "grad_norm": 0.125,
      "learning_rate": 0.0007552637329889739,
      "loss": 0.6634,
      "step": 11260
    },
    {
      "epoch": 0.5597496771630078,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0007552239992053243,
      "loss": 0.7046,
      "step": 11270
    },
    {
      "epoch": 0.5602463494586272,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007551842654216749,
      "loss": 0.6988,
      "step": 11280
    },
    {
      "epoch": 0.5607430217542465,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007551445316380252,
      "loss": 0.681,
      "step": 11290
    },
    {
      "epoch": 0.5612396940498658,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007551047978543757,
      "loss": 0.7067,
      "step": 11300
    },
    {
      "epoch": 0.5617363663454853,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007550650640707262,
      "loss": 0.6846,
      "step": 11310
    },
    {
      "epoch": 0.5622330386411046,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007550253302870765,
      "loss": 0.6974,
      "step": 11320
    },
    {
      "epoch": 0.562729710936724,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0007549855965034271,
      "loss": 0.6877,
      "step": 11330
    },
    {
      "epoch": 0.5632263832323433,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007549458627197776,
      "loss": 0.6674,
      "step": 11340
    },
    {
      "epoch": 0.5637230555279626,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.000754906128936128,
      "loss": 0.6544,
      "step": 11350
    },
    {
      "epoch": 0.564219727823582,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007548663951524784,
      "loss": 0.6775,
      "step": 11360
    },
    {
      "epoch": 0.5647164001192013,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0007548266613688288,
      "loss": 0.6838,
      "step": 11370
    },
    {
      "epoch": 0.5652130724148207,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0007547869275851794,
      "loss": 0.6775,
      "step": 11380
    },
    {
      "epoch": 0.56570974471044,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0007547471938015298,
      "loss": 0.6907,
      "step": 11390
    },
    {
      "epoch": 0.5662064170060594,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0007547074600178802,
      "loss": 0.669,
      "step": 11400
    },
    {
      "epoch": 0.5667030893016788,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0007546677262342307,
      "loss": 0.681,
      "step": 11410
    },
    {
      "epoch": 0.5671997615972981,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007546279924505811,
      "loss": 0.685,
      "step": 11420
    },
    {
      "epoch": 0.5676964338929175,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007545882586669316,
      "loss": 0.7101,
      "step": 11430
    },
    {
      "epoch": 0.5681931061885368,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007545485248832821,
      "loss": 0.7297,
      "step": 11440
    },
    {
      "epoch": 0.5686897784841561,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007545087910996325,
      "loss": 0.7116,
      "step": 11450
    },
    {
      "epoch": 0.5691864507797755,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007544690573159829,
      "loss": 0.6823,
      "step": 11460
    },
    {
      "epoch": 0.5696831230753948,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0007544293235323334,
      "loss": 0.7039,
      "step": 11470
    },
    {
      "epoch": 0.5701797953710142,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007543895897486839,
      "loss": 0.6877,
      "step": 11480
    },
    {
      "epoch": 0.5706764676666336,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007543498559650343,
      "loss": 0.7188,
      "step": 11490
    },
    {
      "epoch": 0.5711731399622529,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007543101221813848,
      "loss": 0.6998,
      "step": 11500
    },
    {
      "epoch": 0.5716698122578723,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0007542703883977352,
      "loss": 0.6943,
      "step": 11510
    },
    {
      "epoch": 0.5721664845534916,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0007542306546140856,
      "loss": 0.6909,
      "step": 11520
    },
    {
      "epoch": 0.572663156849111,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007541909208304362,
      "loss": 0.6551,
      "step": 11530
    },
    {
      "epoch": 0.5731598291447303,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007541511870467866,
      "loss": 0.6907,
      "step": 11540
    },
    {
      "epoch": 0.5736565014403496,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.000754111453263137,
      "loss": 0.6967,
      "step": 11550
    },
    {
      "epoch": 0.574153173735969,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0007540717194794874,
      "loss": 0.6866,
      "step": 11560
    },
    {
      "epoch": 0.5746498460315883,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007540319856958379,
      "loss": 0.6793,
      "step": 11570
    },
    {
      "epoch": 0.5751465183272078,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007539922519121884,
      "loss": 0.71,
      "step": 11580
    },
    {
      "epoch": 0.5756431906228271,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0007539525181285388,
      "loss": 0.6951,
      "step": 11590
    },
    {
      "epoch": 0.5761398629184464,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0007539127843448893,
      "loss": 0.6879,
      "step": 11600
    },
    {
      "epoch": 0.5766365352140658,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007538730505612397,
      "loss": 0.6827,
      "step": 11610
    },
    {
      "epoch": 0.5771332075096851,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007538333167775901,
      "loss": 0.666,
      "step": 11620
    },
    {
      "epoch": 0.5776298798053044,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0007537935829939407,
      "loss": 0.6948,
      "step": 11630
    },
    {
      "epoch": 0.5781265521009238,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007537538492102911,
      "loss": 0.6813,
      "step": 11640
    },
    {
      "epoch": 0.5786232243965431,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007537141154266415,
      "loss": 0.6757,
      "step": 11650
    },
    {
      "epoch": 0.5791198966921625,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.000753674381642992,
      "loss": 0.7123,
      "step": 11660
    },
    {
      "epoch": 0.5796165689877819,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0007536346478593424,
      "loss": 0.7048,
      "step": 11670
    },
    {
      "epoch": 0.5801132412834012,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0007535949140756929,
      "loss": 0.6927,
      "step": 11680
    },
    {
      "epoch": 0.5806099135790206,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0007535551802920434,
      "loss": 0.6679,
      "step": 11690
    },
    {
      "epoch": 0.5811065858746399,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0007535154465083938,
      "loss": 0.729,
      "step": 11700
    },
    {
      "epoch": 0.5816032581702593,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007534757127247442,
      "loss": 0.7099,
      "step": 11710
    },
    {
      "epoch": 0.5820999304658786,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007534359789410947,
      "loss": 0.6524,
      "step": 11720
    },
    {
      "epoch": 0.5825966027614979,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007533962451574452,
      "loss": 0.7253,
      "step": 11730
    },
    {
      "epoch": 0.5830932750571173,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007533565113737956,
      "loss": 0.6756,
      "step": 11740
    },
    {
      "epoch": 0.5835899473527366,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007533167775901461,
      "loss": 0.6726,
      "step": 11750
    },
    {
      "epoch": 0.5840866196483561,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007532770438064965,
      "loss": 0.6854,
      "step": 11760
    },
    {
      "epoch": 0.5845832919439754,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007532373100228469,
      "loss": 0.6881,
      "step": 11770
    },
    {
      "epoch": 0.5850799642395947,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0007531975762391974,
      "loss": 0.7094,
      "step": 11780
    },
    {
      "epoch": 0.5855766365352141,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007531578424555479,
      "loss": 0.6962,
      "step": 11790
    },
    {
      "epoch": 0.5860733088308334,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007531181086718984,
      "loss": 0.7148,
      "step": 11800
    },
    {
      "epoch": 0.5865699811264528,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007530783748882487,
      "loss": 0.6397,
      "step": 11810
    },
    {
      "epoch": 0.5870666534220721,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0007530386411045992,
      "loss": 0.6775,
      "step": 11820
    },
    {
      "epoch": 0.5875633257176914,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007529989073209497,
      "loss": 0.7079,
      "step": 11830
    },
    {
      "epoch": 0.5880599980133108,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007529591735373001,
      "loss": 0.7033,
      "step": 11840
    },
    {
      "epoch": 0.5885566703089302,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0007529194397536506,
      "loss": 0.6891,
      "step": 11850
    },
    {
      "epoch": 0.5890533426045496,
      "grad_norm": 0.1328125,
      "learning_rate": 0.000752879705970001,
      "loss": 0.6991,
      "step": 11860
    },
    {
      "epoch": 0.5895500149001689,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007528399721863514,
      "loss": 0.7138,
      "step": 11870
    },
    {
      "epoch": 0.5900466871957882,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.000752800238402702,
      "loss": 0.694,
      "step": 11880
    },
    {
      "epoch": 0.5905433594914076,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0007527605046190524,
      "loss": 0.6693,
      "step": 11890
    },
    {
      "epoch": 0.5910400317870269,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0007527207708354028,
      "loss": 0.6626,
      "step": 11900
    },
    {
      "epoch": 0.5915367040826462,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007526810370517533,
      "loss": 0.6696,
      "step": 11910
    },
    {
      "epoch": 0.5920333763782656,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0007526413032681037,
      "loss": 0.7056,
      "step": 11920
    },
    {
      "epoch": 0.5925300486738849,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007526015694844542,
      "loss": 0.7229,
      "step": 11930
    },
    {
      "epoch": 0.5930267209695044,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007525618357008047,
      "loss": 0.6533,
      "step": 11940
    },
    {
      "epoch": 0.5935233932651237,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0007525221019171551,
      "loss": 0.6976,
      "step": 11950
    },
    {
      "epoch": 0.594020065560743,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0007524823681335056,
      "loss": 0.6907,
      "step": 11960
    },
    {
      "epoch": 0.5945167378563624,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0007524426343498559,
      "loss": 0.6898,
      "step": 11970
    },
    {
      "epoch": 0.5950134101519817,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0007524029005662065,
      "loss": 0.6755,
      "step": 11980
    },
    {
      "epoch": 0.5955100824476011,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.000752363166782557,
      "loss": 0.7117,
      "step": 11990
    },
    {
      "epoch": 0.5960067547432204,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0007523234329989073,
      "loss": 0.6984,
      "step": 12000
    },
    {
      "epoch": 0.5965034270388397,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007522836992152578,
      "loss": 0.693,
      "step": 12010
    },
    {
      "epoch": 0.5970000993344591,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0007522439654316083,
      "loss": 0.6968,
      "step": 12020
    },
    {
      "epoch": 0.5974967716300785,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0007522042316479587,
      "loss": 0.726,
      "step": 12030
    },
    {
      "epoch": 0.5979934439256979,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007521644978643092,
      "loss": 0.6597,
      "step": 12040
    },
    {
      "epoch": 0.5984901162213172,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0007521247640806596,
      "loss": 0.6991,
      "step": 12050
    },
    {
      "epoch": 0.5989867885169365,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.00075208503029701,
      "loss": 0.69,
      "step": 12060
    },
    {
      "epoch": 0.5994834608125559,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007520452965133605,
      "loss": 0.6338,
      "step": 12070
    },
    {
      "epoch": 0.5999801331081752,
      "grad_norm": 0.123046875,
      "learning_rate": 0.000752005562729711,
      "loss": 0.6749,
      "step": 12080
    },
    {
      "epoch": 0.6004768054037946,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007519658289460615,
      "loss": 0.6509,
      "step": 12090
    },
    {
      "epoch": 0.6009734776994139,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007519260951624119,
      "loss": 0.6835,
      "step": 12100
    },
    {
      "epoch": 0.6014701499950332,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007518863613787623,
      "loss": 0.6922,
      "step": 12110
    },
    {
      "epoch": 0.6019668222906527,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007518466275951128,
      "loss": 0.6965,
      "step": 12120
    },
    {
      "epoch": 0.602463494586272,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0007518068938114633,
      "loss": 0.6965,
      "step": 12130
    },
    {
      "epoch": 0.6029601668818914,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0007517671600278137,
      "loss": 0.6884,
      "step": 12140
    },
    {
      "epoch": 0.6034568391775107,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0007517274262441642,
      "loss": 0.6822,
      "step": 12150
    },
    {
      "epoch": 0.60395351147313,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007516876924605145,
      "loss": 0.6637,
      "step": 12160
    },
    {
      "epoch": 0.6044501837687494,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.000751647958676865,
      "loss": 0.6784,
      "step": 12170
    },
    {
      "epoch": 0.6049468560643687,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007516082248932156,
      "loss": 0.6741,
      "step": 12180
    },
    {
      "epoch": 0.605443528359988,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007515684911095659,
      "loss": 0.6529,
      "step": 12190
    },
    {
      "epoch": 0.6059402006556074,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007515287573259164,
      "loss": 0.6806,
      "step": 12200
    },
    {
      "epoch": 0.6064368729512268,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007514890235422669,
      "loss": 0.6758,
      "step": 12210
    },
    {
      "epoch": 0.6069335452468462,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007514492897586172,
      "loss": 0.7012,
      "step": 12220
    },
    {
      "epoch": 0.6074302175424655,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007514095559749678,
      "loss": 0.7264,
      "step": 12230
    },
    {
      "epoch": 0.6079268898380848,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007513698221913182,
      "loss": 0.6513,
      "step": 12240
    },
    {
      "epoch": 0.6084235621337042,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007513300884076687,
      "loss": 0.6646,
      "step": 12250
    },
    {
      "epoch": 0.6089202344293235,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0007512903546240191,
      "loss": 0.6786,
      "step": 12260
    },
    {
      "epoch": 0.6094169067249429,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007512506208403695,
      "loss": 0.6541,
      "step": 12270
    },
    {
      "epoch": 0.6099135790205622,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007512108870567201,
      "loss": 0.6807,
      "step": 12280
    },
    {
      "epoch": 0.6104102513161815,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007511711532730705,
      "loss": 0.6737,
      "step": 12290
    },
    {
      "epoch": 0.6109069236118009,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0007511314194894209,
      "loss": 0.6765,
      "step": 12300
    },
    {
      "epoch": 0.6114035959074203,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007510916857057714,
      "loss": 0.7203,
      "step": 12310
    },
    {
      "epoch": 0.6119002682030397,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0007510519519221218,
      "loss": 0.665,
      "step": 12320
    },
    {
      "epoch": 0.612396940498659,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007510122181384722,
      "loss": 0.6752,
      "step": 12330
    },
    {
      "epoch": 0.6128936127942783,
      "grad_norm": 0.140625,
      "learning_rate": 0.0007509724843548228,
      "loss": 0.6806,
      "step": 12340
    },
    {
      "epoch": 0.6133902850898977,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0007509327505711731,
      "loss": 0.6697,
      "step": 12350
    },
    {
      "epoch": 0.613886957385517,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007508930167875236,
      "loss": 0.6807,
      "step": 12360
    },
    {
      "epoch": 0.6143836296811364,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007508532830038741,
      "loss": 0.6599,
      "step": 12370
    },
    {
      "epoch": 0.6148803019767557,
      "grad_norm": 0.125,
      "learning_rate": 0.0007508135492202244,
      "loss": 0.6782,
      "step": 12380
    },
    {
      "epoch": 0.615376974272375,
      "grad_norm": 0.126953125,
      "learning_rate": 0.000750773815436575,
      "loss": 0.6866,
      "step": 12390
    },
    {
      "epoch": 0.6158736465679945,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007507340816529255,
      "loss": 0.6832,
      "step": 12400
    },
    {
      "epoch": 0.6163703188636138,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007506943478692759,
      "loss": 0.6741,
      "step": 12410
    },
    {
      "epoch": 0.6168669911592332,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007506546140856263,
      "loss": 0.6638,
      "step": 12420
    },
    {
      "epoch": 0.6173636634548525,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007506148803019767,
      "loss": 0.6734,
      "step": 12430
    },
    {
      "epoch": 0.6178603357504718,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007505751465183273,
      "loss": 0.6718,
      "step": 12440
    },
    {
      "epoch": 0.6183570080460912,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007505354127346777,
      "loss": 0.7069,
      "step": 12450
    },
    {
      "epoch": 0.6188536803417105,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007504956789510281,
      "loss": 0.7089,
      "step": 12460
    },
    {
      "epoch": 0.6193503526373298,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007504559451673786,
      "loss": 0.6918,
      "step": 12470
    },
    {
      "epoch": 0.6198470249329492,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.000750416211383729,
      "loss": 0.695,
      "step": 12480
    },
    {
      "epoch": 0.6203436972285686,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007503764776000795,
      "loss": 0.6542,
      "step": 12490
    },
    {
      "epoch": 0.620840369524188,
      "grad_norm": 0.14453125,
      "learning_rate": 0.00075033674381643,
      "loss": 0.7126,
      "step": 12500
    },
    {
      "epoch": 0.6213370418198073,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007502970100327804,
      "loss": 0.6595,
      "step": 12510
    },
    {
      "epoch": 0.6218337141154267,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007502572762491308,
      "loss": 0.6853,
      "step": 12520
    },
    {
      "epoch": 0.622330386411046,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007502175424654814,
      "loss": 0.6536,
      "step": 12530
    },
    {
      "epoch": 0.6228270587066653,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007501778086818318,
      "loss": 0.6682,
      "step": 12540
    },
    {
      "epoch": 0.6233237310022847,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0007501380748981822,
      "loss": 0.6557,
      "step": 12550
    },
    {
      "epoch": 0.623820403297904,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007500983411145327,
      "loss": 0.6871,
      "step": 12560
    },
    {
      "epoch": 0.6243170755935233,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0007500586073308831,
      "loss": 0.6744,
      "step": 12570
    },
    {
      "epoch": 0.6248137478891428,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007500188735472335,
      "loss": 0.6408,
      "step": 12580
    },
    {
      "epoch": 0.6253104201847621,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007499791397635841,
      "loss": 0.6815,
      "step": 12590
    },
    {
      "epoch": 0.6258070924803815,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007499394059799345,
      "loss": 0.6647,
      "step": 12600
    },
    {
      "epoch": 0.6263037647760008,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0007498996721962849,
      "loss": 0.666,
      "step": 12610
    },
    {
      "epoch": 0.6268004370716201,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007498599384126353,
      "loss": 0.6886,
      "step": 12620
    },
    {
      "epoch": 0.6272971093672395,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007498202046289858,
      "loss": 0.7055,
      "step": 12630
    },
    {
      "epoch": 0.6277937816628588,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0007497804708453363,
      "loss": 0.6681,
      "step": 12640
    },
    {
      "epoch": 0.6282904539584782,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007497407370616867,
      "loss": 0.6827,
      "step": 12650
    },
    {
      "epoch": 0.6287871262540975,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007497010032780372,
      "loss": 0.6637,
      "step": 12660
    },
    {
      "epoch": 0.6292837985497169,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007496612694943876,
      "loss": 0.6761,
      "step": 12670
    },
    {
      "epoch": 0.6297804708453363,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.000749621535710738,
      "loss": 0.6713,
      "step": 12680
    },
    {
      "epoch": 0.6302771431409556,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007495818019270886,
      "loss": 0.6797,
      "step": 12690
    },
    {
      "epoch": 0.630773815436575,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.000749542068143439,
      "loss": 0.6841,
      "step": 12700
    },
    {
      "epoch": 0.6312704877321943,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007495023343597894,
      "loss": 0.6869,
      "step": 12710
    },
    {
      "epoch": 0.6317671600278136,
      "grad_norm": 0.140625,
      "learning_rate": 0.0007494626005761399,
      "loss": 0.6889,
      "step": 12720
    },
    {
      "epoch": 0.632263832323433,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007494228667924903,
      "loss": 0.7024,
      "step": 12730
    },
    {
      "epoch": 0.6327605046190523,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007493831330088408,
      "loss": 0.6904,
      "step": 12740
    },
    {
      "epoch": 0.6332571769146716,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0007493433992251913,
      "loss": 0.6811,
      "step": 12750
    },
    {
      "epoch": 0.6337538492102911,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007493036654415417,
      "loss": 0.6713,
      "step": 12760
    },
    {
      "epoch": 0.6342505215059104,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007492639316578921,
      "loss": 0.6732,
      "step": 12770
    },
    {
      "epoch": 0.6347471938015298,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007492241978742426,
      "loss": 0.6961,
      "step": 12780
    },
    {
      "epoch": 0.6352438660971491,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007491844640905931,
      "loss": 0.672,
      "step": 12790
    },
    {
      "epoch": 0.6357405383927685,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007491447303069435,
      "loss": 0.7121,
      "step": 12800
    },
    {
      "epoch": 0.6362372106883878,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.000749104996523294,
      "loss": 0.6957,
      "step": 12810
    },
    {
      "epoch": 0.6367338829840071,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007490652627396444,
      "loss": 0.6893,
      "step": 12820
    },
    {
      "epoch": 0.6372305552796265,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007490255289559948,
      "loss": 0.6501,
      "step": 12830
    },
    {
      "epoch": 0.6377272275752458,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007489857951723453,
      "loss": 0.6912,
      "step": 12840
    },
    {
      "epoch": 0.6382238998708653,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007489460613886958,
      "loss": 0.6945,
      "step": 12850
    },
    {
      "epoch": 0.6387205721664846,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007489063276050463,
      "loss": 0.66,
      "step": 12860
    },
    {
      "epoch": 0.6392172444621039,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007488665938213966,
      "loss": 0.7147,
      "step": 12870
    },
    {
      "epoch": 0.6397139167577233,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007488268600377471,
      "loss": 0.668,
      "step": 12880
    },
    {
      "epoch": 0.6402105890533426,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007487871262540976,
      "loss": 0.6798,
      "step": 12890
    },
    {
      "epoch": 0.6407072613489619,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.000748747392470448,
      "loss": 0.6702,
      "step": 12900
    },
    {
      "epoch": 0.6412039336445813,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007487076586867985,
      "loss": 0.661,
      "step": 12910
    },
    {
      "epoch": 0.6417006059402006,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007486679249031489,
      "loss": 0.6679,
      "step": 12920
    },
    {
      "epoch": 0.64219727823582,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007486281911194993,
      "loss": 0.659,
      "step": 12930
    },
    {
      "epoch": 0.6426939505314394,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0007485884573358499,
      "loss": 0.6966,
      "step": 12940
    },
    {
      "epoch": 0.6431906228270587,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0007485487235522003,
      "loss": 0.7063,
      "step": 12950
    },
    {
      "epoch": 0.6436872951226781,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007485089897685507,
      "loss": 0.6778,
      "step": 12960
    },
    {
      "epoch": 0.6441839674182974,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007484692559849012,
      "loss": 0.7112,
      "step": 12970
    },
    {
      "epoch": 0.6446806397139168,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007484295222012516,
      "loss": 0.7005,
      "step": 12980
    },
    {
      "epoch": 0.6451773120095361,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007483897884176022,
      "loss": 0.657,
      "step": 12990
    },
    {
      "epoch": 0.6456739843051554,
      "grad_norm": 0.140625,
      "learning_rate": 0.0007483500546339526,
      "loss": 0.6676,
      "step": 13000
    },
    {
      "epoch": 0.6461706566007748,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.000748310320850303,
      "loss": 0.6943,
      "step": 13010
    },
    {
      "epoch": 0.6466673288963941,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007482705870666535,
      "loss": 0.6727,
      "step": 13020
    },
    {
      "epoch": 0.6471640011920136,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007482308532830038,
      "loss": 0.6818,
      "step": 13030
    },
    {
      "epoch": 0.6476606734876329,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007481911194993544,
      "loss": 0.6715,
      "step": 13040
    },
    {
      "epoch": 0.6481573457832522,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007481513857157049,
      "loss": 0.6993,
      "step": 13050
    },
    {
      "epoch": 0.6486540180788716,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007481116519320552,
      "loss": 0.6996,
      "step": 13060
    },
    {
      "epoch": 0.6491506903744909,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0007480719181484057,
      "loss": 0.6714,
      "step": 13070
    },
    {
      "epoch": 0.6496473626701103,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007480321843647562,
      "loss": 0.702,
      "step": 13080
    },
    {
      "epoch": 0.6501440349657296,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007479924505811066,
      "loss": 0.6975,
      "step": 13090
    },
    {
      "epoch": 0.6506407072613489,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0007479527167974571,
      "loss": 0.7115,
      "step": 13100
    },
    {
      "epoch": 0.6511373795569683,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007479129830138075,
      "loss": 0.7013,
      "step": 13110
    },
    {
      "epoch": 0.6516340518525877,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007478732492301579,
      "loss": 0.6469,
      "step": 13120
    },
    {
      "epoch": 0.652130724148207,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0007478335154465084,
      "loss": 0.7094,
      "step": 13130
    },
    {
      "epoch": 0.6526273964438264,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007477937816628589,
      "loss": 0.6609,
      "step": 13140
    },
    {
      "epoch": 0.6531240687394457,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007477540478792094,
      "loss": 0.684,
      "step": 13150
    },
    {
      "epoch": 0.6536207410350651,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007477143140955598,
      "loss": 0.6833,
      "step": 13160
    },
    {
      "epoch": 0.6541174133306844,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007476745803119102,
      "loss": 0.6783,
      "step": 13170
    },
    {
      "epoch": 0.6546140856263037,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007476348465282607,
      "loss": 0.6597,
      "step": 13180
    },
    {
      "epoch": 0.6551107579219231,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007475951127446112,
      "loss": 0.6951,
      "step": 13190
    },
    {
      "epoch": 0.6556074302175424,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007475553789609616,
      "loss": 0.6596,
      "step": 13200
    },
    {
      "epoch": 0.6561041025131619,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0007475156451773121,
      "loss": 0.6579,
      "step": 13210
    },
    {
      "epoch": 0.6566007748087812,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007474759113936624,
      "loss": 0.669,
      "step": 13220
    },
    {
      "epoch": 0.6570974471044005,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007474361776100129,
      "loss": 0.6524,
      "step": 13230
    },
    {
      "epoch": 0.6575941194000199,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007473964438263635,
      "loss": 0.6781,
      "step": 13240
    },
    {
      "epoch": 0.6580907916956392,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007473567100427138,
      "loss": 0.6868,
      "step": 13250
    },
    {
      "epoch": 0.6585874639912586,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007473169762590643,
      "loss": 0.6969,
      "step": 13260
    },
    {
      "epoch": 0.6590841362868779,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007472772424754148,
      "loss": 0.7009,
      "step": 13270
    },
    {
      "epoch": 0.6595808085824972,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007472375086917652,
      "loss": 0.681,
      "step": 13280
    },
    {
      "epoch": 0.6600774808781166,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007471977749081157,
      "loss": 0.6342,
      "step": 13290
    },
    {
      "epoch": 0.660574153173736,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007471580411244661,
      "loss": 0.6394,
      "step": 13300
    },
    {
      "epoch": 0.6610708254693554,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007471183073408166,
      "loss": 0.7037,
      "step": 13310
    },
    {
      "epoch": 0.6615674977649747,
      "grad_norm": 0.12109375,
      "learning_rate": 0.000747078573557167,
      "loss": 0.6478,
      "step": 13320
    },
    {
      "epoch": 0.662064170060594,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0007470388397735174,
      "loss": 0.6727,
      "step": 13330
    },
    {
      "epoch": 0.6625608423562134,
      "grad_norm": 0.123046875,
      "learning_rate": 0.000746999105989868,
      "loss": 0.6829,
      "step": 13340
    },
    {
      "epoch": 0.6630575146518327,
      "grad_norm": 0.125,
      "learning_rate": 0.0007469593722062184,
      "loss": 0.6971,
      "step": 13350
    },
    {
      "epoch": 0.663554186947452,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007469196384225688,
      "loss": 0.6622,
      "step": 13360
    },
    {
      "epoch": 0.6640508592430714,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007468799046389193,
      "loss": 0.6789,
      "step": 13370
    },
    {
      "epoch": 0.6645475315386907,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007468401708552697,
      "loss": 0.6986,
      "step": 13380
    },
    {
      "epoch": 0.6650442038343102,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007468004370716202,
      "loss": 0.7204,
      "step": 13390
    },
    {
      "epoch": 0.6655408761299295,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007467607032879707,
      "loss": 0.6522,
      "step": 13400
    },
    {
      "epoch": 0.6660375484255489,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007467209695043211,
      "loss": 0.6546,
      "step": 13410
    },
    {
      "epoch": 0.6665342207211682,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007466812357206715,
      "loss": 0.6535,
      "step": 13420
    },
    {
      "epoch": 0.6670308930167875,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.000746641501937022,
      "loss": 0.6729,
      "step": 13430
    },
    {
      "epoch": 0.6675275653124069,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007466017681533725,
      "loss": 0.6886,
      "step": 13440
    },
    {
      "epoch": 0.6680242376080262,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007465620343697229,
      "loss": 0.6564,
      "step": 13450
    },
    {
      "epoch": 0.6685209099036455,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007465223005860734,
      "loss": 0.6938,
      "step": 13460
    },
    {
      "epoch": 0.6690175821992649,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007464825668024238,
      "loss": 0.6715,
      "step": 13470
    },
    {
      "epoch": 0.6695142544948842,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0007464428330187742,
      "loss": 0.6789,
      "step": 13480
    },
    {
      "epoch": 0.6700109267905037,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0007464030992351247,
      "loss": 0.6537,
      "step": 13490
    },
    {
      "epoch": 0.670507599086123,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007463633654514752,
      "loss": 0.6739,
      "step": 13500
    },
    {
      "epoch": 0.6710042713817423,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007463236316678256,
      "loss": 0.6662,
      "step": 13510
    },
    {
      "epoch": 0.6715009436773617,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.000746283897884176,
      "loss": 0.6451,
      "step": 13520
    },
    {
      "epoch": 0.671997615972981,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0007462441641005265,
      "loss": 0.6754,
      "step": 13530
    },
    {
      "epoch": 0.6724942882686004,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.000746204430316877,
      "loss": 0.6632,
      "step": 13540
    },
    {
      "epoch": 0.6729909605642197,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0007461646965332274,
      "loss": 0.7027,
      "step": 13550
    },
    {
      "epoch": 0.673487632859839,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007461249627495779,
      "loss": 0.6755,
      "step": 13560
    },
    {
      "epoch": 0.6739843051554584,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007460852289659283,
      "loss": 0.688,
      "step": 13570
    },
    {
      "epoch": 0.6744809774510778,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0007460454951822787,
      "loss": 0.69,
      "step": 13580
    },
    {
      "epoch": 0.6749776497466972,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007460057613986293,
      "loss": 0.7026,
      "step": 13590
    },
    {
      "epoch": 0.6754743220423165,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007459660276149797,
      "loss": 0.6592,
      "step": 13600
    },
    {
      "epoch": 0.6759709943379358,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007459262938313301,
      "loss": 0.6609,
      "step": 13610
    },
    {
      "epoch": 0.6764676666335552,
      "grad_norm": 0.125,
      "learning_rate": 0.0007458865600476806,
      "loss": 0.6837,
      "step": 13620
    },
    {
      "epoch": 0.6769643389291745,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000745846826264031,
      "loss": 0.6865,
      "step": 13630
    },
    {
      "epoch": 0.6774610112247939,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0007458070924803814,
      "loss": 0.6354,
      "step": 13640
    },
    {
      "epoch": 0.6779576835204132,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.000745767358696732,
      "loss": 0.7152,
      "step": 13650
    },
    {
      "epoch": 0.6784543558160325,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007457276249130824,
      "loss": 0.6739,
      "step": 13660
    },
    {
      "epoch": 0.678951028111652,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007456878911294328,
      "loss": 0.6947,
      "step": 13670
    },
    {
      "epoch": 0.6794477004072713,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007456481573457833,
      "loss": 0.6693,
      "step": 13680
    },
    {
      "epoch": 0.6799443727028907,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0007456084235621338,
      "loss": 0.6785,
      "step": 13690
    },
    {
      "epoch": 0.68044104499851,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007455686897784842,
      "loss": 0.6698,
      "step": 13700
    },
    {
      "epoch": 0.6809377172941293,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007455289559948346,
      "loss": 0.6377,
      "step": 13710
    },
    {
      "epoch": 0.6814343895897487,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007454892222111851,
      "loss": 0.6667,
      "step": 13720
    },
    {
      "epoch": 0.681931061885368,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007454494884275356,
      "loss": 0.7018,
      "step": 13730
    },
    {
      "epoch": 0.6824277341809873,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.000745409754643886,
      "loss": 0.6803,
      "step": 13740
    },
    {
      "epoch": 0.6829244064766067,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007453700208602365,
      "loss": 0.6521,
      "step": 13750
    },
    {
      "epoch": 0.6834210787722261,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007453302870765869,
      "loss": 0.696,
      "step": 13760
    },
    {
      "epoch": 0.6839177510678455,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007452905532929373,
      "loss": 0.6783,
      "step": 13770
    },
    {
      "epoch": 0.6844144233634648,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007452508195092878,
      "loss": 0.6695,
      "step": 13780
    },
    {
      "epoch": 0.6849110956590841,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007452110857256382,
      "loss": 0.694,
      "step": 13790
    },
    {
      "epoch": 0.6854077679547035,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0007451713519419887,
      "loss": 0.6664,
      "step": 13800
    },
    {
      "epoch": 0.6859044402503228,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007451316181583392,
      "loss": 0.6734,
      "step": 13810
    },
    {
      "epoch": 0.6864011125459422,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007450918843746896,
      "loss": 0.6455,
      "step": 13820
    },
    {
      "epoch": 0.6868977848415615,
      "grad_norm": 0.10546875,
      "learning_rate": 0.00074505215059104,
      "loss": 0.6509,
      "step": 13830
    },
    {
      "epoch": 0.6873944571371808,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007450124168073906,
      "loss": 0.6705,
      "step": 13840
    },
    {
      "epoch": 0.6878911294328003,
      "grad_norm": 0.1171875,
      "learning_rate": 0.000744972683023741,
      "loss": 0.6952,
      "step": 13850
    },
    {
      "epoch": 0.6883878017284196,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007449329492400914,
      "loss": 0.6787,
      "step": 13860
    },
    {
      "epoch": 0.688884474024039,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007448932154564419,
      "loss": 0.6715,
      "step": 13870
    },
    {
      "epoch": 0.6893811463196583,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007448534816727923,
      "loss": 0.6722,
      "step": 13880
    },
    {
      "epoch": 0.6898778186152776,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0007448137478891429,
      "loss": 0.6656,
      "step": 13890
    },
    {
      "epoch": 0.690374490910897,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007447740141054932,
      "loss": 0.6341,
      "step": 13900
    },
    {
      "epoch": 0.6908711632065163,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007447342803218437,
      "loss": 0.687,
      "step": 13910
    },
    {
      "epoch": 0.6913678355021357,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007446945465381942,
      "loss": 0.7099,
      "step": 13920
    },
    {
      "epoch": 0.691864507797755,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0007446548127545445,
      "loss": 0.6738,
      "step": 13930
    },
    {
      "epoch": 0.6923611800933744,
      "grad_norm": 0.111328125,
      "learning_rate": 0.000744615078970895,
      "loss": 0.6398,
      "step": 13940
    },
    {
      "epoch": 0.6928578523889938,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007445753451872456,
      "loss": 0.66,
      "step": 13950
    },
    {
      "epoch": 0.6933545246846131,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007445356114035959,
      "loss": 0.6886,
      "step": 13960
    },
    {
      "epoch": 0.6938511969802325,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007444958776199464,
      "loss": 0.6649,
      "step": 13970
    },
    {
      "epoch": 0.6943478692758518,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007444561438362968,
      "loss": 0.6863,
      "step": 13980
    },
    {
      "epoch": 0.6948445415714711,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007444164100526472,
      "loss": 0.6929,
      "step": 13990
    },
    {
      "epoch": 0.6953412138670905,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007443766762689978,
      "loss": 0.6631,
      "step": 14000
    },
    {
      "epoch": 0.6958378861627098,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007443369424853482,
      "loss": 0.6998,
      "step": 14010
    },
    {
      "epoch": 0.6963345584583291,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0007442972087016986,
      "loss": 0.6604,
      "step": 14020
    },
    {
      "epoch": 0.6968312307539486,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007442574749180491,
      "loss": 0.6781,
      "step": 14030
    },
    {
      "epoch": 0.6973279030495679,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007442177411343995,
      "loss": 0.653,
      "step": 14040
    },
    {
      "epoch": 0.6978245753451873,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007441780073507501,
      "loss": 0.6524,
      "step": 14050
    },
    {
      "epoch": 0.6983212476408066,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007441382735671005,
      "loss": 0.6796,
      "step": 14060
    },
    {
      "epoch": 0.698817919936426,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007440985397834509,
      "loss": 0.6614,
      "step": 14070
    },
    {
      "epoch": 0.6993145922320453,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007440588059998014,
      "loss": 0.6559,
      "step": 14080
    },
    {
      "epoch": 0.6998112645276646,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007440190722161517,
      "loss": 0.6349,
      "step": 14090
    },
    {
      "epoch": 0.700307936823284,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007439793384325023,
      "loss": 0.6741,
      "step": 14100
    },
    {
      "epoch": 0.7008046091189033,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0007439396046488528,
      "loss": 0.6455,
      "step": 14110
    },
    {
      "epoch": 0.7013012814145227,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007438998708652031,
      "loss": 0.6997,
      "step": 14120
    },
    {
      "epoch": 0.7017979537101421,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007438601370815536,
      "loss": 0.661,
      "step": 14130
    },
    {
      "epoch": 0.7022946260057614,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007438204032979041,
      "loss": 0.6776,
      "step": 14140
    },
    {
      "epoch": 0.7027912983013808,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007437806695142545,
      "loss": 0.6656,
      "step": 14150
    },
    {
      "epoch": 0.7032879705970001,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.000743740935730605,
      "loss": 0.6608,
      "step": 14160
    },
    {
      "epoch": 0.7037846428926194,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007437012019469554,
      "loss": 0.6501,
      "step": 14170
    },
    {
      "epoch": 0.7042813151882388,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007436614681633059,
      "loss": 0.6619,
      "step": 14180
    },
    {
      "epoch": 0.7047779874838581,
      "grad_norm": 0.125,
      "learning_rate": 0.0007436217343796563,
      "loss": 0.6832,
      "step": 14190
    },
    {
      "epoch": 0.7052746597794775,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007435820005960068,
      "loss": 0.66,
      "step": 14200
    },
    {
      "epoch": 0.7057713320750969,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0007435422668123573,
      "loss": 0.6392,
      "step": 14210
    },
    {
      "epoch": 0.7062680043707162,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007435025330287077,
      "loss": 0.6357,
      "step": 14220
    },
    {
      "epoch": 0.7067646766663356,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007434627992450581,
      "loss": 0.6774,
      "step": 14230
    },
    {
      "epoch": 0.7072613489619549,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007434230654614086,
      "loss": 0.63,
      "step": 14240
    },
    {
      "epoch": 0.7077580212575743,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007433833316777591,
      "loss": 0.6643,
      "step": 14250
    },
    {
      "epoch": 0.7082546935531936,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007433435978941095,
      "loss": 0.6845,
      "step": 14260
    },
    {
      "epoch": 0.7087513658488129,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.00074330386411046,
      "loss": 0.6639,
      "step": 14270
    },
    {
      "epoch": 0.7092480381444323,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007432641303268104,
      "loss": 0.7032,
      "step": 14280
    },
    {
      "epoch": 0.7097447104400516,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007432243965431608,
      "loss": 0.6655,
      "step": 14290
    },
    {
      "epoch": 0.7102413827356711,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0007431846627595114,
      "loss": 0.6785,
      "step": 14300
    },
    {
      "epoch": 0.7107380550312904,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007431449289758617,
      "loss": 0.673,
      "step": 14310
    },
    {
      "epoch": 0.7112347273269097,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0007431051951922122,
      "loss": 0.6534,
      "step": 14320
    },
    {
      "epoch": 0.7117313996225291,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007430654614085627,
      "loss": 0.6963,
      "step": 14330
    },
    {
      "epoch": 0.7122280719181484,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007430257276249131,
      "loss": 0.6584,
      "step": 14340
    },
    {
      "epoch": 0.7127247442137677,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007429859938412636,
      "loss": 0.6742,
      "step": 14350
    },
    {
      "epoch": 0.7132214165093871,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.000742946260057614,
      "loss": 0.6555,
      "step": 14360
    },
    {
      "epoch": 0.7137180888050064,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0007429065262739645,
      "loss": 0.6705,
      "step": 14370
    },
    {
      "epoch": 0.7142147611006258,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007428667924903149,
      "loss": 0.661,
      "step": 14380
    },
    {
      "epoch": 0.7147114333962452,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007428270587066653,
      "loss": 0.6886,
      "step": 14390
    },
    {
      "epoch": 0.7152081056918645,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0007427873249230159,
      "loss": 0.6865,
      "step": 14400
    },
    {
      "epoch": 0.7157047779874839,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0007427475911393663,
      "loss": 0.6566,
      "step": 14410
    },
    {
      "epoch": 0.7162014502831032,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007427078573557167,
      "loss": 0.6595,
      "step": 14420
    },
    {
      "epoch": 0.7166981225787226,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0007426681235720672,
      "loss": 0.6846,
      "step": 14430
    },
    {
      "epoch": 0.7171947948743419,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007426283897884176,
      "loss": 0.6815,
      "step": 14440
    },
    {
      "epoch": 0.7176914671699612,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007425886560047681,
      "loss": 0.6479,
      "step": 14450
    },
    {
      "epoch": 0.7181881394655806,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007425489222211186,
      "loss": 0.6771,
      "step": 14460
    },
    {
      "epoch": 0.7186848117611999,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.000742509188437469,
      "loss": 0.6768,
      "step": 14470
    },
    {
      "epoch": 0.7191814840568194,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0007424694546538194,
      "loss": 0.6603,
      "step": 14480
    },
    {
      "epoch": 0.7196781563524387,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007424297208701699,
      "loss": 0.6645,
      "step": 14490
    },
    {
      "epoch": 0.720174828648058,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007423899870865204,
      "loss": 0.6885,
      "step": 14500
    },
    {
      "epoch": 0.7206715009436774,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007423502533028708,
      "loss": 0.6573,
      "step": 14510
    },
    {
      "epoch": 0.7211681732392967,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007423105195192213,
      "loss": 0.6914,
      "step": 14520
    },
    {
      "epoch": 0.721664845534916,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007422707857355717,
      "loss": 0.6392,
      "step": 14530
    },
    {
      "epoch": 0.7221615178305354,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007422310519519221,
      "loss": 0.6606,
      "step": 14540
    },
    {
      "epoch": 0.7226581901261547,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007421913181682727,
      "loss": 0.7015,
      "step": 14550
    },
    {
      "epoch": 0.7231548624217741,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007421515843846231,
      "loss": 0.6693,
      "step": 14560
    },
    {
      "epoch": 0.7236515347173935,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007421118506009735,
      "loss": 0.6702,
      "step": 14570
    },
    {
      "epoch": 0.7241482070130129,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007420721168173239,
      "loss": 0.7158,
      "step": 14580
    },
    {
      "epoch": 0.7246448793086322,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007420323830336744,
      "loss": 0.6439,
      "step": 14590
    },
    {
      "epoch": 0.7251415516042515,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007419926492500249,
      "loss": 0.6677,
      "step": 14600
    },
    {
      "epoch": 0.7256382238998709,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0007419529154663753,
      "loss": 0.6892,
      "step": 14610
    },
    {
      "epoch": 0.7261348961954902,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007419131816827258,
      "loss": 0.6827,
      "step": 14620
    },
    {
      "epoch": 0.7266315684911095,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0007418734478990762,
      "loss": 0.6628,
      "step": 14630
    },
    {
      "epoch": 0.7271282407867289,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007418337141154266,
      "loss": 0.6387,
      "step": 14640
    },
    {
      "epoch": 0.7276249130823482,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007417939803317772,
      "loss": 0.6581,
      "step": 14650
    },
    {
      "epoch": 0.7281215853779676,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007417542465481276,
      "loss": 0.6713,
      "step": 14660
    },
    {
      "epoch": 0.728618257673587,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.000741714512764478,
      "loss": 0.6754,
      "step": 14670
    },
    {
      "epoch": 0.7291149299692063,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007416747789808285,
      "loss": 0.6784,
      "step": 14680
    },
    {
      "epoch": 0.7296116022648257,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0007416350451971789,
      "loss": 0.6548,
      "step": 14690
    },
    {
      "epoch": 0.730108274560445,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007415953114135294,
      "loss": 0.6828,
      "step": 14700
    },
    {
      "epoch": 0.7306049468560644,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007415555776298799,
      "loss": 0.6802,
      "step": 14710
    },
    {
      "epoch": 0.7311016191516837,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007415158438462303,
      "loss": 0.657,
      "step": 14720
    },
    {
      "epoch": 0.731598291447303,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007414761100625807,
      "loss": 0.6715,
      "step": 14730
    },
    {
      "epoch": 0.7320949637429224,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007414363762789312,
      "loss": 0.633,
      "step": 14740
    },
    {
      "epoch": 0.7325916360385417,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0007413966424952817,
      "loss": 0.643,
      "step": 14750
    },
    {
      "epoch": 0.7330883083341612,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0007413569087116321,
      "loss": 0.6803,
      "step": 14760
    },
    {
      "epoch": 0.7335849806297805,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0007413171749279825,
      "loss": 0.6491,
      "step": 14770
    },
    {
      "epoch": 0.7340816529253998,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.000741277441144333,
      "loss": 0.6822,
      "step": 14780
    },
    {
      "epoch": 0.7345783252210192,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007412377073606835,
      "loss": 0.6758,
      "step": 14790
    },
    {
      "epoch": 0.7350749975166385,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007411979735770338,
      "loss": 0.6977,
      "step": 14800
    },
    {
      "epoch": 0.7355716698122579,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0007411582397933844,
      "loss": 0.6655,
      "step": 14810
    },
    {
      "epoch": 0.7360683421078772,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007411185060097349,
      "loss": 0.6554,
      "step": 14820
    },
    {
      "epoch": 0.7365650144034965,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0007410787722260852,
      "loss": 0.623,
      "step": 14830
    },
    {
      "epoch": 0.7370616866991159,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007410390384424357,
      "loss": 0.6476,
      "step": 14840
    },
    {
      "epoch": 0.7375583589947353,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007409993046587862,
      "loss": 0.6634,
      "step": 14850
    },
    {
      "epoch": 0.7380550312903547,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007409595708751366,
      "loss": 0.6542,
      "step": 14860
    },
    {
      "epoch": 0.738551703585974,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007409198370914871,
      "loss": 0.6161,
      "step": 14870
    },
    {
      "epoch": 0.7390483758815933,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007408801033078375,
      "loss": 0.6548,
      "step": 14880
    },
    {
      "epoch": 0.7395450481772127,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007408403695241879,
      "loss": 0.6417,
      "step": 14890
    },
    {
      "epoch": 0.740041720472832,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0007408006357405385,
      "loss": 0.6701,
      "step": 14900
    },
    {
      "epoch": 0.7405383927684513,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007407609019568889,
      "loss": 0.6672,
      "step": 14910
    },
    {
      "epoch": 0.7410350650640707,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007407211681732393,
      "loss": 0.6359,
      "step": 14920
    },
    {
      "epoch": 0.74153173735969,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007406814343895898,
      "loss": 0.668,
      "step": 14930
    },
    {
      "epoch": 0.7420284096553095,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007406417006059402,
      "loss": 0.6952,
      "step": 14940
    },
    {
      "epoch": 0.7425250819509288,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007406019668222908,
      "loss": 0.6725,
      "step": 14950
    },
    {
      "epoch": 0.7430217542465481,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007405622330386411,
      "loss": 0.6643,
      "step": 14960
    },
    {
      "epoch": 0.7435184265421675,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0007405224992549916,
      "loss": 0.6796,
      "step": 14970
    },
    {
      "epoch": 0.7440150988377868,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007404827654713421,
      "loss": 0.6462,
      "step": 14980
    },
    {
      "epoch": 0.7445117711334062,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007404430316876924,
      "loss": 0.6689,
      "step": 14990
    },
    {
      "epoch": 0.7450084434290255,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.000740403297904043,
      "loss": 0.7093,
      "step": 15000
    },
    {
      "epoch": 0.7455051157246448,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007403635641203935,
      "loss": 0.6595,
      "step": 15010
    },
    {
      "epoch": 0.7460017880202642,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007403238303367438,
      "loss": 0.7084,
      "step": 15020
    },
    {
      "epoch": 0.7464984603158836,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007402840965530943,
      "loss": 0.6587,
      "step": 15030
    },
    {
      "epoch": 0.746995132611503,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007402443627694447,
      "loss": 0.6821,
      "step": 15040
    },
    {
      "epoch": 0.7474918049071223,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007402046289857951,
      "loss": 0.6574,
      "step": 15050
    },
    {
      "epoch": 0.7479884772027416,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007401648952021457,
      "loss": 0.6512,
      "step": 15060
    },
    {
      "epoch": 0.748485149498361,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007401251614184961,
      "loss": 0.6612,
      "step": 15070
    },
    {
      "epoch": 0.7489818217939803,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007400854276348466,
      "loss": 0.6923,
      "step": 15080
    },
    {
      "epoch": 0.7494784940895997,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.000740045693851197,
      "loss": 0.6737,
      "step": 15090
    },
    {
      "epoch": 0.749975166385219,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007400059600675474,
      "loss": 0.6633,
      "step": 15100
    },
    {
      "epoch": 0.7504718386808383,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.000739966226283898,
      "loss": 0.6599,
      "step": 15110
    },
    {
      "epoch": 0.7509685109764578,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007399264925002484,
      "loss": 0.6532,
      "step": 15120
    },
    {
      "epoch": 0.7514651832720771,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007398867587165988,
      "loss": 0.6475,
      "step": 15130
    },
    {
      "epoch": 0.7519618555676965,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007398470249329493,
      "loss": 0.627,
      "step": 15140
    },
    {
      "epoch": 0.7524585278633158,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007398072911492998,
      "loss": 0.6591,
      "step": 15150
    },
    {
      "epoch": 0.7529552001589351,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0007397675573656502,
      "loss": 0.678,
      "step": 15160
    },
    {
      "epoch": 0.7534518724545545,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007397278235820007,
      "loss": 0.6714,
      "step": 15170
    },
    {
      "epoch": 0.7539485447501738,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.000739688089798351,
      "loss": 0.6759,
      "step": 15180
    },
    {
      "epoch": 0.7544452170457931,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007396483560147015,
      "loss": 0.7192,
      "step": 15190
    },
    {
      "epoch": 0.7549418893414125,
      "grad_norm": 0.138671875,
      "learning_rate": 0.000739608622231052,
      "loss": 0.6535,
      "step": 15200
    },
    {
      "epoch": 0.7554385616370319,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007395688884474024,
      "loss": 0.6535,
      "step": 15210
    },
    {
      "epoch": 0.7559352339326513,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0007395291546637529,
      "loss": 0.6493,
      "step": 15220
    },
    {
      "epoch": 0.7564319062282706,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007394894208801033,
      "loss": 0.6432,
      "step": 15230
    },
    {
      "epoch": 0.75692857852389,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0007394496870964538,
      "loss": 0.6387,
      "step": 15240
    },
    {
      "epoch": 0.7574252508195093,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007394099533128042,
      "loss": 0.6892,
      "step": 15250
    },
    {
      "epoch": 0.7579219231151286,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0007393702195291547,
      "loss": 0.6835,
      "step": 15260
    },
    {
      "epoch": 0.758418595410748,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007393304857455052,
      "loss": 0.6625,
      "step": 15270
    },
    {
      "epoch": 0.7589152677063673,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007392907519618556,
      "loss": 0.687,
      "step": 15280
    },
    {
      "epoch": 0.7594119400019866,
      "grad_norm": 0.111328125,
      "learning_rate": 0.000739251018178206,
      "loss": 0.63,
      "step": 15290
    },
    {
      "epoch": 0.7599086122976061,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007392112843945566,
      "loss": 0.6379,
      "step": 15300
    },
    {
      "epoch": 0.7604052845932254,
      "grad_norm": 0.1015625,
      "learning_rate": 0.000739171550610907,
      "loss": 0.6866,
      "step": 15310
    },
    {
      "epoch": 0.7609019568888448,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007391318168272574,
      "loss": 0.651,
      "step": 15320
    },
    {
      "epoch": 0.7613986291844641,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007390920830436079,
      "loss": 0.6841,
      "step": 15330
    },
    {
      "epoch": 0.7618953014800834,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007390523492599583,
      "loss": 0.6586,
      "step": 15340
    },
    {
      "epoch": 0.7623919737757028,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007390126154763087,
      "loss": 0.6854,
      "step": 15350
    },
    {
      "epoch": 0.7628886460713221,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0007389728816926593,
      "loss": 0.668,
      "step": 15360
    },
    {
      "epoch": 0.7633853183669415,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0007389331479090096,
      "loss": 0.6417,
      "step": 15370
    },
    {
      "epoch": 0.7638819906625608,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007388934141253601,
      "loss": 0.6731,
      "step": 15380
    },
    {
      "epoch": 0.7643786629581802,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007388536803417106,
      "loss": 0.6381,
      "step": 15390
    },
    {
      "epoch": 0.7648753352537996,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.000738813946558061,
      "loss": 0.6457,
      "step": 15400
    },
    {
      "epoch": 0.7653720075494189,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007387742127744115,
      "loss": 0.6486,
      "step": 15410
    },
    {
      "epoch": 0.7658686798450383,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.000738734478990762,
      "loss": 0.6659,
      "step": 15420
    },
    {
      "epoch": 0.7663653521406576,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007386947452071124,
      "loss": 0.6527,
      "step": 15430
    },
    {
      "epoch": 0.7668620244362769,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0007386550114234628,
      "loss": 0.6608,
      "step": 15440
    },
    {
      "epoch": 0.7673586967318963,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0007386152776398132,
      "loss": 0.6618,
      "step": 15450
    },
    {
      "epoch": 0.7678553690275156,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007385755438561638,
      "loss": 0.6524,
      "step": 15460
    },
    {
      "epoch": 0.768352041323135,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0007385358100725142,
      "loss": 0.6715,
      "step": 15470
    },
    {
      "epoch": 0.7688487136187544,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007384960762888646,
      "loss": 0.6431,
      "step": 15480
    },
    {
      "epoch": 0.7693453859143737,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007384563425052151,
      "loss": 0.6363,
      "step": 15490
    },
    {
      "epoch": 0.7698420582099931,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0007384166087215655,
      "loss": 0.6678,
      "step": 15500
    },
    {
      "epoch": 0.7703387305056124,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.000738376874937916,
      "loss": 0.6862,
      "step": 15510
    },
    {
      "epoch": 0.7708354028012318,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007383371411542665,
      "loss": 0.6488,
      "step": 15520
    },
    {
      "epoch": 0.7713320750968511,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007382974073706169,
      "loss": 0.6608,
      "step": 15530
    },
    {
      "epoch": 0.7718287473924704,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0007382576735869673,
      "loss": 0.6887,
      "step": 15540
    },
    {
      "epoch": 0.7723254196880898,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007382179398033178,
      "loss": 0.65,
      "step": 15550
    },
    {
      "epoch": 0.7728220919837091,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007381782060196683,
      "loss": 0.6542,
      "step": 15560
    },
    {
      "epoch": 0.7733187642793286,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0007381384722360187,
      "loss": 0.6324,
      "step": 15570
    },
    {
      "epoch": 0.7738154365749479,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007380987384523692,
      "loss": 0.6682,
      "step": 15580
    },
    {
      "epoch": 0.7743121088705672,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007380590046687196,
      "loss": 0.6871,
      "step": 15590
    },
    {
      "epoch": 0.7748087811661866,
      "grad_norm": 0.125,
      "learning_rate": 0.00073801927088507,
      "loss": 0.6528,
      "step": 15600
    },
    {
      "epoch": 0.7753054534618059,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0007379795371014206,
      "loss": 0.6642,
      "step": 15610
    },
    {
      "epoch": 0.7758021257574252,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.000737939803317771,
      "loss": 0.657,
      "step": 15620
    },
    {
      "epoch": 0.7762987980530446,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007379000695341214,
      "loss": 0.672,
      "step": 15630
    },
    {
      "epoch": 0.7767954703486639,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007378603357504718,
      "loss": 0.6719,
      "step": 15640
    },
    {
      "epoch": 0.7772921426442833,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007378206019668223,
      "loss": 0.6735,
      "step": 15650
    },
    {
      "epoch": 0.7777888149399027,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007377808681831728,
      "loss": 0.6648,
      "step": 15660
    },
    {
      "epoch": 0.778285487235522,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0007377411343995232,
      "loss": 0.6676,
      "step": 15670
    },
    {
      "epoch": 0.7787821595311414,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007377014006158737,
      "loss": 0.685,
      "step": 15680
    },
    {
      "epoch": 0.7792788318267607,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007376616668322241,
      "loss": 0.6626,
      "step": 15690
    },
    {
      "epoch": 0.7797755041223801,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007376219330485745,
      "loss": 0.6375,
      "step": 15700
    },
    {
      "epoch": 0.7802721764179994,
      "grad_norm": 0.140625,
      "learning_rate": 0.0007375821992649251,
      "loss": 0.6498,
      "step": 15710
    },
    {
      "epoch": 0.7807688487136187,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0007375424654812755,
      "loss": 0.6627,
      "step": 15720
    },
    {
      "epoch": 0.7812655210092381,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007375027316976259,
      "loss": 0.6476,
      "step": 15730
    },
    {
      "epoch": 0.7817621933048574,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0007374629979139764,
      "loss": 0.6621,
      "step": 15740
    },
    {
      "epoch": 0.7822588656004769,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007374232641303268,
      "loss": 0.6777,
      "step": 15750
    },
    {
      "epoch": 0.7827555378960962,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007373835303466773,
      "loss": 0.6634,
      "step": 15760
    },
    {
      "epoch": 0.7832522101917155,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0007373437965630278,
      "loss": 0.6365,
      "step": 15770
    },
    {
      "epoch": 0.7837488824873349,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007373040627793782,
      "loss": 0.6644,
      "step": 15780
    },
    {
      "epoch": 0.7842455547829542,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007372643289957286,
      "loss": 0.6768,
      "step": 15790
    },
    {
      "epoch": 0.7847422270785736,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007372245952120791,
      "loss": 0.6666,
      "step": 15800
    },
    {
      "epoch": 0.7852388993741929,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007371848614284296,
      "loss": 0.6616,
      "step": 15810
    },
    {
      "epoch": 0.7857355716698122,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0007371451276447801,
      "loss": 0.6727,
      "step": 15820
    },
    {
      "epoch": 0.7862322439654316,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007371053938611304,
      "loss": 0.6297,
      "step": 15830
    },
    {
      "epoch": 0.7867289162610509,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007370656600774809,
      "loss": 0.661,
      "step": 15840
    },
    {
      "epoch": 0.7872255885566704,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0007370259262938314,
      "loss": 0.6471,
      "step": 15850
    },
    {
      "epoch": 0.7877222608522897,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007369861925101818,
      "loss": 0.6412,
      "step": 15860
    },
    {
      "epoch": 0.788218933147909,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007369464587265323,
      "loss": 0.647,
      "step": 15870
    },
    {
      "epoch": 0.7887156054435284,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0007369067249428828,
      "loss": 0.6365,
      "step": 15880
    },
    {
      "epoch": 0.7892122777391477,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007368669911592331,
      "loss": 0.6588,
      "step": 15890
    },
    {
      "epoch": 0.789708950034767,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007368272573755836,
      "loss": 0.6499,
      "step": 15900
    },
    {
      "epoch": 0.7902056223303864,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007367875235919341,
      "loss": 0.6606,
      "step": 15910
    },
    {
      "epoch": 0.7907022946260057,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007367477898082845,
      "loss": 0.6713,
      "step": 15920
    },
    {
      "epoch": 0.7911989669216251,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.000736708056024635,
      "loss": 0.633,
      "step": 15930
    },
    {
      "epoch": 0.7916956392172445,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007366683222409854,
      "loss": 0.6714,
      "step": 15940
    },
    {
      "epoch": 0.7921923115128638,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007366285884573358,
      "loss": 0.6649,
      "step": 15950
    },
    {
      "epoch": 0.7926889838084832,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007365888546736864,
      "loss": 0.68,
      "step": 15960
    },
    {
      "epoch": 0.7931856561041025,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007365491208900368,
      "loss": 0.6256,
      "step": 15970
    },
    {
      "epoch": 0.7936823283997219,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007365093871063873,
      "loss": 0.6611,
      "step": 15980
    },
    {
      "epoch": 0.7941790006953412,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007364696533227377,
      "loss": 0.6605,
      "step": 15990
    },
    {
      "epoch": 0.7946756729909605,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007364299195390881,
      "loss": 0.6494,
      "step": 16000
    },
    {
      "epoch": 0.7951723452865799,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007363901857554387,
      "loss": 0.6674,
      "step": 16010
    },
    {
      "epoch": 0.7956690175821992,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.000736350451971789,
      "loss": 0.6483,
      "step": 16020
    },
    {
      "epoch": 0.7961656898778187,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007363107181881395,
      "loss": 0.6441,
      "step": 16030
    },
    {
      "epoch": 0.796662362173438,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.00073627098440449,
      "loss": 0.6642,
      "step": 16040
    },
    {
      "epoch": 0.7971590344690573,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0007362312506208403,
      "loss": 0.6259,
      "step": 16050
    },
    {
      "epoch": 0.7976557067646767,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007361915168371909,
      "loss": 0.6641,
      "step": 16060
    },
    {
      "epoch": 0.798152379060296,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007361517830535414,
      "loss": 0.6431,
      "step": 16070
    },
    {
      "epoch": 0.7986490513559154,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007361120492698917,
      "loss": 0.6418,
      "step": 16080
    },
    {
      "epoch": 0.7991457236515347,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007360723154862422,
      "loss": 0.6362,
      "step": 16090
    },
    {
      "epoch": 0.799642395947154,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007360325817025926,
      "loss": 0.6457,
      "step": 16100
    },
    {
      "epoch": 0.8001390682427734,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.000735992847918943,
      "loss": 0.6353,
      "step": 16110
    },
    {
      "epoch": 0.8006357405383928,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007359531141352936,
      "loss": 0.6309,
      "step": 16120
    },
    {
      "epoch": 0.8011324128340122,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.000735913380351644,
      "loss": 0.6537,
      "step": 16130
    },
    {
      "epoch": 0.8016290851296315,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0007358736465679945,
      "loss": 0.6506,
      "step": 16140
    },
    {
      "epoch": 0.8021257574252508,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007358339127843449,
      "loss": 0.6716,
      "step": 16150
    },
    {
      "epoch": 0.8026224297208702,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007357941790006954,
      "loss": 0.6404,
      "step": 16160
    },
    {
      "epoch": 0.8031191020164895,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007357544452170459,
      "loss": 0.6493,
      "step": 16170
    },
    {
      "epoch": 0.8036157743121088,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007357147114333963,
      "loss": 0.6635,
      "step": 16180
    },
    {
      "epoch": 0.8041124466077282,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007356749776497467,
      "loss": 0.619,
      "step": 16190
    },
    {
      "epoch": 0.8046091189033475,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007356352438660972,
      "loss": 0.6638,
      "step": 16200
    },
    {
      "epoch": 0.805105791198967,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007355955100824477,
      "loss": 0.665,
      "step": 16210
    },
    {
      "epoch": 0.8056024634945863,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0007355557762987981,
      "loss": 0.6213,
      "step": 16220
    },
    {
      "epoch": 0.8060991357902056,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0007355160425151486,
      "loss": 0.6451,
      "step": 16230
    },
    {
      "epoch": 0.806595808085825,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0007354763087314989,
      "loss": 0.6398,
      "step": 16240
    },
    {
      "epoch": 0.8070924803814443,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007354365749478494,
      "loss": 0.6553,
      "step": 16250
    },
    {
      "epoch": 0.8075891526770637,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007353968411642,
      "loss": 0.691,
      "step": 16260
    },
    {
      "epoch": 0.808085824972683,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007353571073805504,
      "loss": 0.6825,
      "step": 16270
    },
    {
      "epoch": 0.8085824972683023,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007353173735969008,
      "loss": 0.6685,
      "step": 16280
    },
    {
      "epoch": 0.8090791695639217,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007352776398132512,
      "loss": 0.6356,
      "step": 16290
    },
    {
      "epoch": 0.8095758418595411,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0007352379060296017,
      "loss": 0.6552,
      "step": 16300
    },
    {
      "epoch": 0.8100725141551605,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007351981722459522,
      "loss": 0.6721,
      "step": 16310
    },
    {
      "epoch": 0.8105691864507798,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007351584384623026,
      "loss": 0.6464,
      "step": 16320
    },
    {
      "epoch": 0.8110658587463991,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007351187046786531,
      "loss": 0.6584,
      "step": 16330
    },
    {
      "epoch": 0.8115625310420185,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007350789708950035,
      "loss": 0.6583,
      "step": 16340
    },
    {
      "epoch": 0.8120592033376378,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007350392371113539,
      "loss": 0.6785,
      "step": 16350
    },
    {
      "epoch": 0.8125558756332572,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007349995033277045,
      "loss": 0.6511,
      "step": 16360
    },
    {
      "epoch": 0.8130525479288765,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0007349597695440549,
      "loss": 0.6634,
      "step": 16370
    },
    {
      "epoch": 0.8135492202244958,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007349200357604053,
      "loss": 0.7017,
      "step": 16380
    },
    {
      "epoch": 0.8140458925201153,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0007348803019767558,
      "loss": 0.6716,
      "step": 16390
    },
    {
      "epoch": 0.8145425648157346,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007348405681931062,
      "loss": 0.6769,
      "step": 16400
    },
    {
      "epoch": 0.815039237111354,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007348008344094566,
      "loss": 0.6457,
      "step": 16410
    },
    {
      "epoch": 0.8155359094069733,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007347611006258072,
      "loss": 0.6589,
      "step": 16420
    },
    {
      "epoch": 0.8160325817025926,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0007347213668421576,
      "loss": 0.6282,
      "step": 16430
    },
    {
      "epoch": 0.816529253998212,
      "grad_norm": 0.1328125,
      "learning_rate": 0.000734681633058508,
      "loss": 0.6914,
      "step": 16440
    },
    {
      "epoch": 0.8170259262938313,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007346418992748585,
      "loss": 0.6693,
      "step": 16450
    },
    {
      "epoch": 0.8175225985894506,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.000734602165491209,
      "loss": 0.6435,
      "step": 16460
    },
    {
      "epoch": 0.81801927088507,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007345624317075594,
      "loss": 0.6676,
      "step": 16470
    },
    {
      "epoch": 0.8185159431806894,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007345226979239099,
      "loss": 0.6642,
      "step": 16480
    },
    {
      "epoch": 0.8190126154763088,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007344829641402603,
      "loss": 0.677,
      "step": 16490
    },
    {
      "epoch": 0.8195092877719281,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007344432303566107,
      "loss": 0.6594,
      "step": 16500
    },
    {
      "epoch": 0.8200059600675474,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007344034965729611,
      "loss": 0.6555,
      "step": 16510
    },
    {
      "epoch": 0.8205026323631668,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0007343637627893117,
      "loss": 0.6422,
      "step": 16520
    },
    {
      "epoch": 0.8209993046587861,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007343240290056621,
      "loss": 0.6481,
      "step": 16530
    },
    {
      "epoch": 0.8214959769544055,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007342842952220125,
      "loss": 0.678,
      "step": 16540
    },
    {
      "epoch": 0.8219926492500248,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.000734244561438363,
      "loss": 0.638,
      "step": 16550
    },
    {
      "epoch": 0.8224893215456441,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007342048276547134,
      "loss": 0.6303,
      "step": 16560
    },
    {
      "epoch": 0.8229859938412636,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0007341650938710639,
      "loss": 0.6615,
      "step": 16570
    },
    {
      "epoch": 0.8234826661368829,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007341253600874144,
      "loss": 0.6814,
      "step": 16580
    },
    {
      "epoch": 0.8239793384325023,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007340856263037648,
      "loss": 0.6632,
      "step": 16590
    },
    {
      "epoch": 0.8244760107281216,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007340458925201152,
      "loss": 0.6387,
      "step": 16600
    },
    {
      "epoch": 0.8249726830237409,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0007340061587364658,
      "loss": 0.6394,
      "step": 16610
    },
    {
      "epoch": 0.8254693553193603,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007339664249528162,
      "loss": 0.6571,
      "step": 16620
    },
    {
      "epoch": 0.8259660276149796,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007339266911691666,
      "loss": 0.662,
      "step": 16630
    },
    {
      "epoch": 0.826462699910599,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007338869573855171,
      "loss": 0.6662,
      "step": 16640
    },
    {
      "epoch": 0.8269593722062183,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007338472236018675,
      "loss": 0.6464,
      "step": 16650
    },
    {
      "epoch": 0.8274560445018377,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007338074898182179,
      "loss": 0.6808,
      "step": 16660
    },
    {
      "epoch": 0.8279527167974571,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007337677560345685,
      "loss": 0.6563,
      "step": 16670
    },
    {
      "epoch": 0.8284493890930764,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007337280222509189,
      "loss": 0.6661,
      "step": 16680
    },
    {
      "epoch": 0.8289460613886958,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007336882884672693,
      "loss": 0.6458,
      "step": 16690
    },
    {
      "epoch": 0.8294427336843151,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007336485546836197,
      "loss": 0.6569,
      "step": 16700
    },
    {
      "epoch": 0.8299394059799344,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007336088208999702,
      "loss": 0.6661,
      "step": 16710
    },
    {
      "epoch": 0.8304360782755538,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007335690871163208,
      "loss": 0.6804,
      "step": 16720
    },
    {
      "epoch": 0.8309327505711731,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007335293533326711,
      "loss": 0.6887,
      "step": 16730
    },
    {
      "epoch": 0.8314294228667924,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007334896195490216,
      "loss": 0.6213,
      "step": 16740
    },
    {
      "epoch": 0.8319260951624119,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007334498857653721,
      "loss": 0.649,
      "step": 16750
    },
    {
      "epoch": 0.8324227674580312,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007334101519817224,
      "loss": 0.6543,
      "step": 16760
    },
    {
      "epoch": 0.8329194397536506,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.000733370418198073,
      "loss": 0.6634,
      "step": 16770
    },
    {
      "epoch": 0.8334161120492699,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007333306844144234,
      "loss": 0.6675,
      "step": 16780
    },
    {
      "epoch": 0.8339127843448892,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007332909506307738,
      "loss": 0.6521,
      "step": 16790
    },
    {
      "epoch": 0.8344094566405086,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007332512168471243,
      "loss": 0.6378,
      "step": 16800
    },
    {
      "epoch": 0.8349061289361279,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0007332114830634747,
      "loss": 0.6496,
      "step": 16810
    },
    {
      "epoch": 0.8354028012317473,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007331717492798252,
      "loss": 0.6638,
      "step": 16820
    },
    {
      "epoch": 0.8358994735273666,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007331320154961757,
      "loss": 0.6344,
      "step": 16830
    },
    {
      "epoch": 0.836396145822986,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0007330922817125261,
      "loss": 0.6616,
      "step": 16840
    },
    {
      "epoch": 0.8368928181186054,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007330525479288765,
      "loss": 0.6469,
      "step": 16850
    },
    {
      "epoch": 0.8373894904142247,
      "grad_norm": 0.107421875,
      "learning_rate": 0.000733012814145227,
      "loss": 0.6803,
      "step": 16860
    },
    {
      "epoch": 0.8378861627098441,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0007329730803615775,
      "loss": 0.6452,
      "step": 16870
    },
    {
      "epoch": 0.8383828350054634,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.000732933346577928,
      "loss": 0.6699,
      "step": 16880
    },
    {
      "epoch": 0.8388795073010827,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007328936127942783,
      "loss": 0.6362,
      "step": 16890
    },
    {
      "epoch": 0.8393761795967021,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007328538790106288,
      "loss": 0.6622,
      "step": 16900
    },
    {
      "epoch": 0.8398728518923214,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0007328141452269793,
      "loss": 0.6484,
      "step": 16910
    },
    {
      "epoch": 0.8403695241879408,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007327744114433297,
      "loss": 0.6497,
      "step": 16920
    },
    {
      "epoch": 0.8408661964835602,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007327346776596802,
      "loss": 0.6783,
      "step": 16930
    },
    {
      "epoch": 0.8413628687791795,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0007326949438760307,
      "loss": 0.6665,
      "step": 16940
    },
    {
      "epoch": 0.8418595410747989,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.000732655210092381,
      "loss": 0.6902,
      "step": 16950
    },
    {
      "epoch": 0.8423562133704182,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007326154763087315,
      "loss": 0.6522,
      "step": 16960
    },
    {
      "epoch": 0.8428528856660376,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.000732575742525082,
      "loss": 0.6571,
      "step": 16970
    },
    {
      "epoch": 0.8433495579616569,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0007325360087414324,
      "loss": 0.657,
      "step": 16980
    },
    {
      "epoch": 0.8438462302572762,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007324962749577829,
      "loss": 0.648,
      "step": 16990
    },
    {
      "epoch": 0.8443429025528956,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007324565411741333,
      "loss": 0.6394,
      "step": 17000
    },
    {
      "epoch": 0.8448395748485149,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0007324168073904837,
      "loss": 0.6504,
      "step": 17010
    },
    {
      "epoch": 0.8453362471441342,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007323770736068343,
      "loss": 0.6483,
      "step": 17020
    },
    {
      "epoch": 0.8458329194397537,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0007323373398231847,
      "loss": 0.6492,
      "step": 17030
    },
    {
      "epoch": 0.846329591735373,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007322976060395352,
      "loss": 0.6662,
      "step": 17040
    },
    {
      "epoch": 0.8468262640309924,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0007322578722558856,
      "loss": 0.6364,
      "step": 17050
    },
    {
      "epoch": 0.8473229363266117,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.000732218138472236,
      "loss": 0.6674,
      "step": 17060
    },
    {
      "epoch": 0.847819608622231,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007321784046885866,
      "loss": 0.6588,
      "step": 17070
    },
    {
      "epoch": 0.8483162809178504,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000732138670904937,
      "loss": 0.6432,
      "step": 17080
    },
    {
      "epoch": 0.8488129532134697,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0007320989371212874,
      "loss": 0.6654,
      "step": 17090
    },
    {
      "epoch": 0.8493096255090891,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0007320592033376379,
      "loss": 0.6632,
      "step": 17100
    },
    {
      "epoch": 0.8498062978047084,
      "grad_norm": 0.125,
      "learning_rate": 0.0007320194695539882,
      "loss": 0.6595,
      "step": 17110
    },
    {
      "epoch": 0.8503029701003278,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007319797357703388,
      "loss": 0.6614,
      "step": 17120
    },
    {
      "epoch": 0.8507996423959472,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0007319400019866893,
      "loss": 0.6409,
      "step": 17130
    },
    {
      "epoch": 0.8512963146915665,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007319002682030396,
      "loss": 0.6245,
      "step": 17140
    },
    {
      "epoch": 0.8517929869871859,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007318605344193901,
      "loss": 0.6708,
      "step": 17150
    },
    {
      "epoch": 0.8522896592828052,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007318208006357405,
      "loss": 0.6608,
      "step": 17160
    },
    {
      "epoch": 0.8527863315784245,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007317810668520911,
      "loss": 0.6411,
      "step": 17170
    },
    {
      "epoch": 0.8532830038740439,
      "grad_norm": 0.140625,
      "learning_rate": 0.0007317413330684415,
      "loss": 0.6536,
      "step": 17180
    },
    {
      "epoch": 0.8537796761696632,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007317015992847919,
      "loss": 0.6427,
      "step": 17190
    },
    {
      "epoch": 0.8542763484652826,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0007316618655011424,
      "loss": 0.6913,
      "step": 17200
    },
    {
      "epoch": 0.854773020760902,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007316221317174928,
      "loss": 0.6436,
      "step": 17210
    },
    {
      "epoch": 0.8552696930565213,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007315823979338433,
      "loss": 0.6381,
      "step": 17220
    },
    {
      "epoch": 0.8557663653521407,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007315426641501938,
      "loss": 0.66,
      "step": 17230
    },
    {
      "epoch": 0.85626303764776,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0007315029303665442,
      "loss": 0.6569,
      "step": 17240
    },
    {
      "epoch": 0.8567597099433794,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0007314631965828946,
      "loss": 0.6972,
      "step": 17250
    },
    {
      "epoch": 0.8572563822389987,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007314234627992451,
      "loss": 0.6668,
      "step": 17260
    },
    {
      "epoch": 0.857753054534618,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0007313837290155956,
      "loss": 0.6675,
      "step": 17270
    },
    {
      "epoch": 0.8582497268302374,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.000731343995231946,
      "loss": 0.6405,
      "step": 17280
    },
    {
      "epoch": 0.8587463991258567,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0007313042614482965,
      "loss": 0.657,
      "step": 17290
    },
    {
      "epoch": 0.8592430714214762,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007312645276646468,
      "loss": 0.6507,
      "step": 17300
    },
    {
      "epoch": 0.8597397437170955,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0007312247938809973,
      "loss": 0.6625,
      "step": 17310
    },
    {
      "epoch": 0.8602364160127148,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007311850600973479,
      "loss": 0.6755,
      "step": 17320
    },
    {
      "epoch": 0.8607330883083342,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007311453263136983,
      "loss": 0.6671,
      "step": 17330
    },
    {
      "epoch": 0.8612297606039535,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007311055925300487,
      "loss": 0.6828,
      "step": 17340
    },
    {
      "epoch": 0.8617264328995728,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0007310658587463992,
      "loss": 0.6169,
      "step": 17350
    },
    {
      "epoch": 0.8622231051951922,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007310261249627496,
      "loss": 0.6387,
      "step": 17360
    },
    {
      "epoch": 0.8627197774908115,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007309863911791001,
      "loss": 0.7025,
      "step": 17370
    },
    {
      "epoch": 0.8632164497864309,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0007309466573954505,
      "loss": 0.6599,
      "step": 17380
    },
    {
      "epoch": 0.8637131220820503,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.000730906923611801,
      "loss": 0.6288,
      "step": 17390
    },
    {
      "epoch": 0.8642097943776696,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007308671898281514,
      "loss": 0.6718,
      "step": 17400
    },
    {
      "epoch": 0.864706466673289,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007308274560445018,
      "loss": 0.6607,
      "step": 17410
    },
    {
      "epoch": 0.8652031389689083,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007307877222608524,
      "loss": 0.6593,
      "step": 17420
    },
    {
      "epoch": 0.8656998112645277,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007307479884772028,
      "loss": 0.6401,
      "step": 17430
    },
    {
      "epoch": 0.866196483560147,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007307082546935532,
      "loss": 0.6316,
      "step": 17440
    },
    {
      "epoch": 0.8666931558557663,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0007306685209099037,
      "loss": 0.6319,
      "step": 17450
    },
    {
      "epoch": 0.8671898281513857,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007306287871262541,
      "loss": 0.6675,
      "step": 17460
    },
    {
      "epoch": 0.867686500447005,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0007305890533426046,
      "loss": 0.6245,
      "step": 17470
    },
    {
      "epoch": 0.8681831727426245,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007305493195589551,
      "loss": 0.6518,
      "step": 17480
    },
    {
      "epoch": 0.8686798450382438,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0007305095857753055,
      "loss": 0.6574,
      "step": 17490
    },
    {
      "epoch": 0.8691765173338631,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007304698519916559,
      "loss": 0.6386,
      "step": 17500
    },
    {
      "epoch": 0.8696731896294825,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007304301182080064,
      "loss": 0.6485,
      "step": 17510
    },
    {
      "epoch": 0.8701698619251018,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007303903844243569,
      "loss": 0.653,
      "step": 17520
    },
    {
      "epoch": 0.8706665342207212,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007303506506407073,
      "loss": 0.6777,
      "step": 17530
    },
    {
      "epoch": 0.8711632065163405,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0007303109168570578,
      "loss": 0.6541,
      "step": 17540
    },
    {
      "epoch": 0.8716598788119598,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007302711830734082,
      "loss": 0.6746,
      "step": 17550
    },
    {
      "epoch": 0.8721565511075792,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007302314492897586,
      "loss": 0.6732,
      "step": 17560
    },
    {
      "epoch": 0.8726532234031986,
      "grad_norm": 0.1171875,
      "learning_rate": 0.000730191715506109,
      "loss": 0.6948,
      "step": 17570
    },
    {
      "epoch": 0.873149895698818,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007301519817224596,
      "loss": 0.6498,
      "step": 17580
    },
    {
      "epoch": 0.8736465679944373,
      "grad_norm": 0.115234375,
      "learning_rate": 0.00073011224793881,
      "loss": 0.6505,
      "step": 17590
    },
    {
      "epoch": 0.8741432402900566,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0007300725141551604,
      "loss": 0.6503,
      "step": 17600
    },
    {
      "epoch": 0.874639912585676,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007300327803715109,
      "loss": 0.6586,
      "step": 17610
    },
    {
      "epoch": 0.8751365848812953,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0007299930465878615,
      "loss": 0.6732,
      "step": 17620
    },
    {
      "epoch": 0.8756332571769146,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007299533128042118,
      "loss": 0.6564,
      "step": 17630
    },
    {
      "epoch": 0.876129929472534,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007299135790205623,
      "loss": 0.6678,
      "step": 17640
    },
    {
      "epoch": 0.8766266017681533,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007298738452369127,
      "loss": 0.6443,
      "step": 17650
    },
    {
      "epoch": 0.8771232740637728,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007298341114532631,
      "loss": 0.643,
      "step": 17660
    },
    {
      "epoch": 0.8776199463593921,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007297943776696137,
      "loss": 0.6385,
      "step": 17670
    },
    {
      "epoch": 0.8781166186550114,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0007297546438859641,
      "loss": 0.6425,
      "step": 17680
    },
    {
      "epoch": 0.8786132909506308,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0007297149101023145,
      "loss": 0.6334,
      "step": 17690
    },
    {
      "epoch": 0.8791099632462501,
      "grad_norm": 0.134765625,
      "learning_rate": 0.000729675176318665,
      "loss": 0.6628,
      "step": 17700
    },
    {
      "epoch": 0.8796066355418695,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007296354425350154,
      "loss": 0.674,
      "step": 17710
    },
    {
      "epoch": 0.8801033078374888,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007295957087513658,
      "loss": 0.6799,
      "step": 17720
    },
    {
      "epoch": 0.8805999801331081,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007295559749677164,
      "loss": 0.6566,
      "step": 17730
    },
    {
      "epoch": 0.8810966524287275,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0007295162411840668,
      "loss": 0.6363,
      "step": 17740
    },
    {
      "epoch": 0.8815933247243469,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007294765074004172,
      "loss": 0.681,
      "step": 17750
    },
    {
      "epoch": 0.8820899970199663,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007294367736167676,
      "loss": 0.6795,
      "step": 17760
    },
    {
      "epoch": 0.8825866693155856,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007293970398331182,
      "loss": 0.668,
      "step": 17770
    },
    {
      "epoch": 0.8830833416112049,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007293573060494687,
      "loss": 0.6346,
      "step": 17780
    },
    {
      "epoch": 0.8835800139068243,
      "grad_norm": 0.11328125,
      "learning_rate": 0.000729317572265819,
      "loss": 0.6488,
      "step": 17790
    },
    {
      "epoch": 0.8840766862024436,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007292778384821695,
      "loss": 0.6297,
      "step": 17800
    },
    {
      "epoch": 0.884573358498063,
      "grad_norm": 0.099609375,
      "learning_rate": 0.00072923810469852,
      "loss": 0.6498,
      "step": 17810
    },
    {
      "epoch": 0.8850700307936823,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007291983709148703,
      "loss": 0.6379,
      "step": 17820
    },
    {
      "epoch": 0.8855667030893016,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007291586371312209,
      "loss": 0.6485,
      "step": 17830
    },
    {
      "epoch": 0.8860633753849211,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0007291189033475713,
      "loss": 0.6255,
      "step": 17840
    },
    {
      "epoch": 0.8865600476805404,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007290791695639217,
      "loss": 0.6269,
      "step": 17850
    },
    {
      "epoch": 0.8870567199761598,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007290394357802722,
      "loss": 0.658,
      "step": 17860
    },
    {
      "epoch": 0.8875533922717791,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007289997019966226,
      "loss": 0.6499,
      "step": 17870
    },
    {
      "epoch": 0.8880500645673984,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007289599682129731,
      "loss": 0.6215,
      "step": 17880
    },
    {
      "epoch": 0.8885467368630178,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007289202344293236,
      "loss": 0.638,
      "step": 17890
    },
    {
      "epoch": 0.8890434091586371,
      "grad_norm": 0.12109375,
      "learning_rate": 0.000728880500645674,
      "loss": 0.6508,
      "step": 17900
    },
    {
      "epoch": 0.8895400814542564,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0007288407668620245,
      "loss": 0.6515,
      "step": 17910
    },
    {
      "epoch": 0.8900367537498758,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.000728801033078375,
      "loss": 0.6798,
      "step": 17920
    },
    {
      "epoch": 0.8905334260454952,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007287612992947254,
      "loss": 0.6558,
      "step": 17930
    },
    {
      "epoch": 0.8910300983411146,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007287215655110759,
      "loss": 0.6627,
      "step": 17940
    },
    {
      "epoch": 0.8915267706367339,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007286818317274263,
      "loss": 0.6434,
      "step": 17950
    },
    {
      "epoch": 0.8920234429323532,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007286420979437767,
      "loss": 0.636,
      "step": 17960
    },
    {
      "epoch": 0.8925201152279726,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007286023641601273,
      "loss": 0.6488,
      "step": 17970
    },
    {
      "epoch": 0.8930167875235919,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0007285626303764776,
      "loss": 0.6529,
      "step": 17980
    },
    {
      "epoch": 0.8935134598192113,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0007285228965928281,
      "loss": 0.6544,
      "step": 17990
    },
    {
      "epoch": 0.8940101321148306,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007284831628091786,
      "loss": 0.6757,
      "step": 18000
    },
    {
      "epoch": 0.8945068044104499,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007284434290255289,
      "loss": 0.6446,
      "step": 18010
    },
    {
      "epoch": 0.8950034767060694,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007284036952418794,
      "loss": 0.6686,
      "step": 18020
    },
    {
      "epoch": 0.8955001490016887,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0007283639614582299,
      "loss": 0.6257,
      "step": 18030
    },
    {
      "epoch": 0.8959968212973081,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007283242276745803,
      "loss": 0.684,
      "step": 18040
    },
    {
      "epoch": 0.8964934935929274,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007282844938909308,
      "loss": 0.6261,
      "step": 18050
    },
    {
      "epoch": 0.8969901658885467,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007282447601072812,
      "loss": 0.6511,
      "step": 18060
    },
    {
      "epoch": 0.8974868381841661,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0007282050263236317,
      "loss": 0.669,
      "step": 18070
    },
    {
      "epoch": 0.8979835104797854,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007281652925399822,
      "loss": 0.6212,
      "step": 18080
    },
    {
      "epoch": 0.8984801827754048,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007281255587563326,
      "loss": 0.6908,
      "step": 18090
    },
    {
      "epoch": 0.8989768550710241,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007280858249726831,
      "loss": 0.6437,
      "step": 18100
    },
    {
      "epoch": 0.8994735273666435,
      "grad_norm": 0.203125,
      "learning_rate": 0.0007280460911890335,
      "loss": 0.6976,
      "step": 18110
    },
    {
      "epoch": 0.8999701996622629,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0007280063574053839,
      "loss": 0.6431,
      "step": 18120
    },
    {
      "epoch": 0.9004668719578822,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0007279666236217345,
      "loss": 0.6197,
      "step": 18130
    },
    {
      "epoch": 0.9009635442535016,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007279268898380849,
      "loss": 0.6198,
      "step": 18140
    },
    {
      "epoch": 0.9014602165491209,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007278871560544353,
      "loss": 0.6532,
      "step": 18150
    },
    {
      "epoch": 0.9019568888447402,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007278474222707858,
      "loss": 0.6735,
      "step": 18160
    },
    {
      "epoch": 0.9024535611403596,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007278076884871361,
      "loss": 0.6289,
      "step": 18170
    },
    {
      "epoch": 0.9029502334359789,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007277679547034867,
      "loss": 0.6466,
      "step": 18180
    },
    {
      "epoch": 0.9034469057315982,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007277282209198372,
      "loss": 0.6393,
      "step": 18190
    },
    {
      "epoch": 0.9039435780272176,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0007276884871361875,
      "loss": 0.6556,
      "step": 18200
    },
    {
      "epoch": 0.904440250322837,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.000727648753352538,
      "loss": 0.6643,
      "step": 18210
    },
    {
      "epoch": 0.9049369226184564,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0007276090195688885,
      "loss": 0.6401,
      "step": 18220
    },
    {
      "epoch": 0.9054335949140757,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.000727569285785239,
      "loss": 0.6655,
      "step": 18230
    },
    {
      "epoch": 0.905930267209695,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007275295520015894,
      "loss": 0.6161,
      "step": 18240
    },
    {
      "epoch": 0.9064269395053144,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007274898182179398,
      "loss": 0.6177,
      "step": 18250
    },
    {
      "epoch": 0.9069236118009337,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0007274500844342903,
      "loss": 0.6307,
      "step": 18260
    },
    {
      "epoch": 0.9074202840965531,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0007274103506506407,
      "loss": 0.6363,
      "step": 18270
    },
    {
      "epoch": 0.9079169563921724,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0007273706168669912,
      "loss": 0.6561,
      "step": 18280
    },
    {
      "epoch": 0.9084136286877917,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007273308830833417,
      "loss": 0.6347,
      "step": 18290
    },
    {
      "epoch": 0.9089103009834112,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007272911492996921,
      "loss": 0.6362,
      "step": 18300
    },
    {
      "epoch": 0.9094069732790305,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007272514155160425,
      "loss": 0.6456,
      "step": 18310
    },
    {
      "epoch": 0.9099036455746499,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.000727211681732393,
      "loss": 0.6526,
      "step": 18320
    },
    {
      "epoch": 0.9104003178702692,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007271719479487435,
      "loss": 0.6516,
      "step": 18330
    },
    {
      "epoch": 0.9108969901658885,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007271322141650939,
      "loss": 0.6862,
      "step": 18340
    },
    {
      "epoch": 0.9113936624615079,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007270924803814444,
      "loss": 0.6343,
      "step": 18350
    },
    {
      "epoch": 0.9118903347571272,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007270527465977948,
      "loss": 0.6607,
      "step": 18360
    },
    {
      "epoch": 0.9123870070527466,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007270130128141452,
      "loss": 0.6355,
      "step": 18370
    },
    {
      "epoch": 0.9128836793483659,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007269732790304958,
      "loss": 0.6391,
      "step": 18380
    },
    {
      "epoch": 0.9133803516439853,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0007269335452468462,
      "loss": 0.638,
      "step": 18390
    },
    {
      "epoch": 0.9138770239396047,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007268938114631966,
      "loss": 0.6353,
      "step": 18400
    },
    {
      "epoch": 0.914373696235224,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007268540776795471,
      "loss": 0.6596,
      "step": 18410
    },
    {
      "epoch": 0.9148703685308434,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0007268143438958975,
      "loss": 0.6434,
      "step": 18420
    },
    {
      "epoch": 0.9153670408264627,
      "grad_norm": 0.126953125,
      "learning_rate": 0.000726774610112248,
      "loss": 0.6595,
      "step": 18430
    },
    {
      "epoch": 0.915863713122082,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007267348763285984,
      "loss": 0.6257,
      "step": 18440
    },
    {
      "epoch": 0.9163603854177014,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007266951425449489,
      "loss": 0.6293,
      "step": 18450
    },
    {
      "epoch": 0.9168570577133207,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007266554087612993,
      "loss": 0.6326,
      "step": 18460
    },
    {
      "epoch": 0.91735373000894,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007266156749776497,
      "loss": 0.6738,
      "step": 18470
    },
    {
      "epoch": 0.9178504023045595,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007265759411940003,
      "loss": 0.64,
      "step": 18480
    },
    {
      "epoch": 0.9183470746001788,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007265362074103507,
      "loss": 0.6349,
      "step": 18490
    },
    {
      "epoch": 0.9188437468957982,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007264964736267011,
      "loss": 0.6403,
      "step": 18500
    },
    {
      "epoch": 0.9193404191914175,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0007264567398430516,
      "loss": 0.666,
      "step": 18510
    },
    {
      "epoch": 0.9198370914870369,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.000726417006059402,
      "loss": 0.642,
      "step": 18520
    },
    {
      "epoch": 0.9203337637826562,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007263772722757525,
      "loss": 0.6183,
      "step": 18530
    },
    {
      "epoch": 0.9208304360782755,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.000726337538492103,
      "loss": 0.6488,
      "step": 18540
    },
    {
      "epoch": 0.9213271083738949,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0007262978047084534,
      "loss": 0.6425,
      "step": 18550
    },
    {
      "epoch": 0.9218237806695142,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007262580709248038,
      "loss": 0.6517,
      "step": 18560
    },
    {
      "epoch": 0.9223204529651337,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0007262183371411543,
      "loss": 0.6648,
      "step": 18570
    },
    {
      "epoch": 0.922817125260753,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007261786033575048,
      "loss": 0.6293,
      "step": 18580
    },
    {
      "epoch": 0.9233137975563723,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0007261388695738552,
      "loss": 0.6352,
      "step": 18590
    },
    {
      "epoch": 0.9238104698519917,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007260991357902057,
      "loss": 0.6556,
      "step": 18600
    },
    {
      "epoch": 0.924307142147611,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0007260594020065561,
      "loss": 0.6334,
      "step": 18610
    },
    {
      "epoch": 0.9248038144432303,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007260196682229065,
      "loss": 0.6108,
      "step": 18620
    },
    {
      "epoch": 0.9253004867388497,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.000725979934439257,
      "loss": 0.6333,
      "step": 18630
    },
    {
      "epoch": 0.925797159034469,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007259402006556075,
      "loss": 0.6463,
      "step": 18640
    },
    {
      "epoch": 0.9262938313300884,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007259004668719579,
      "loss": 0.6333,
      "step": 18650
    },
    {
      "epoch": 0.9267905036257078,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.0007258607330883083,
      "loss": 0.676,
      "step": 18660
    },
    {
      "epoch": 0.9272871759213271,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007258209993046588,
      "loss": 0.6571,
      "step": 18670
    },
    {
      "epoch": 0.9277838482169465,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007257812655210094,
      "loss": 0.6544,
      "step": 18680
    },
    {
      "epoch": 0.9282805205125658,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007257415317373597,
      "loss": 0.6293,
      "step": 18690
    },
    {
      "epoch": 0.9287771928081852,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007257017979537102,
      "loss": 0.6482,
      "step": 18700
    },
    {
      "epoch": 0.9292738651038045,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007256620641700606,
      "loss": 0.6875,
      "step": 18710
    },
    {
      "epoch": 0.9297705373994238,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000725622330386411,
      "loss": 0.6797,
      "step": 18720
    },
    {
      "epoch": 0.9302672096950432,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0007255825966027616,
      "loss": 0.6506,
      "step": 18730
    },
    {
      "epoch": 0.9307638819906625,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.000725542862819112,
      "loss": 0.6089,
      "step": 18740
    },
    {
      "epoch": 0.931260554286282,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0007255031290354624,
      "loss": 0.6626,
      "step": 18750
    },
    {
      "epoch": 0.9317572265819013,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007254633952518129,
      "loss": 0.6508,
      "step": 18760
    },
    {
      "epoch": 0.9322538988775206,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007254236614681633,
      "loss": 0.6255,
      "step": 18770
    },
    {
      "epoch": 0.93275057117314,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0007253839276845138,
      "loss": 0.6643,
      "step": 18780
    },
    {
      "epoch": 0.9332472434687593,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007253441939008643,
      "loss": 0.6427,
      "step": 18790
    },
    {
      "epoch": 0.9337439157643787,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0007253044601172147,
      "loss": 0.641,
      "step": 18800
    },
    {
      "epoch": 0.934240588059998,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007252647263335652,
      "loss": 0.6462,
      "step": 18810
    },
    {
      "epoch": 0.9347372603556173,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0007252249925499155,
      "loss": 0.6797,
      "step": 18820
    },
    {
      "epoch": 0.9352339326512367,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.000725185258766266,
      "loss": 0.6372,
      "step": 18830
    },
    {
      "epoch": 0.9357306049468561,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007251455249826166,
      "loss": 0.6683,
      "step": 18840
    },
    {
      "epoch": 0.9362272772424755,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007251057911989669,
      "loss": 0.6337,
      "step": 18850
    },
    {
      "epoch": 0.9367239495380948,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007250660574153174,
      "loss": 0.6449,
      "step": 18860
    },
    {
      "epoch": 0.9372206218337141,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007250263236316679,
      "loss": 0.6515,
      "step": 18870
    },
    {
      "epoch": 0.9377172941293335,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007249865898480182,
      "loss": 0.6232,
      "step": 18880
    },
    {
      "epoch": 0.9382139664249528,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007249468560643688,
      "loss": 0.6598,
      "step": 18890
    },
    {
      "epoch": 0.9387106387205721,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007249071222807192,
      "loss": 0.6842,
      "step": 18900
    },
    {
      "epoch": 0.9392073110161915,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007248673884970696,
      "loss": 0.6436,
      "step": 18910
    },
    {
      "epoch": 0.9397039833118108,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0007248276547134201,
      "loss": 0.6466,
      "step": 18920
    },
    {
      "epoch": 0.9402006556074303,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007247879209297706,
      "loss": 0.6312,
      "step": 18930
    },
    {
      "epoch": 0.9406973279030496,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.000724748187146121,
      "loss": 0.676,
      "step": 18940
    },
    {
      "epoch": 0.941194000198669,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007247084533624715,
      "loss": 0.6399,
      "step": 18950
    },
    {
      "epoch": 0.9416906724942883,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007246687195788219,
      "loss": 0.6462,
      "step": 18960
    },
    {
      "epoch": 0.9421873447899076,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0007246289857951724,
      "loss": 0.6322,
      "step": 18970
    },
    {
      "epoch": 0.942684017085527,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0007245892520115229,
      "loss": 0.6487,
      "step": 18980
    },
    {
      "epoch": 0.9431806893811463,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007245495182278733,
      "loss": 0.6321,
      "step": 18990
    },
    {
      "epoch": 0.9436773616767656,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007245097844442238,
      "loss": 0.6716,
      "step": 19000
    },
    {
      "epoch": 0.944174033972385,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007244700506605742,
      "loss": 0.6537,
      "step": 19010
    },
    {
      "epoch": 0.9446707062680044,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007244303168769246,
      "loss": 0.6177,
      "step": 19020
    },
    {
      "epoch": 0.9451673785636238,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0007243905830932752,
      "loss": 0.6269,
      "step": 19030
    },
    {
      "epoch": 0.9456640508592431,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007243508493096255,
      "loss": 0.6405,
      "step": 19040
    },
    {
      "epoch": 0.9461607231548624,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.000724311115525976,
      "loss": 0.6169,
      "step": 19050
    },
    {
      "epoch": 0.9466573954504818,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007242713817423265,
      "loss": 0.6676,
      "step": 19060
    },
    {
      "epoch": 0.9471540677461011,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0007242316479586768,
      "loss": 0.6352,
      "step": 19070
    },
    {
      "epoch": 0.9476507400417205,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007241919141750274,
      "loss": 0.6393,
      "step": 19080
    },
    {
      "epoch": 0.9481474123373398,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0007241521803913778,
      "loss": 0.6591,
      "step": 19090
    },
    {
      "epoch": 0.9486440846329591,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007241124466077282,
      "loss": 0.6649,
      "step": 19100
    },
    {
      "epoch": 0.9491407569285786,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007240727128240787,
      "loss": 0.6774,
      "step": 19110
    },
    {
      "epoch": 0.9496374292241979,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0007240329790404291,
      "loss": 0.6421,
      "step": 19120
    },
    {
      "epoch": 0.9501341015198173,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0007239932452567797,
      "loss": 0.6432,
      "step": 19130
    },
    {
      "epoch": 0.9506307738154366,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0007239535114731301,
      "loss": 0.6313,
      "step": 19140
    },
    {
      "epoch": 0.9511274461110559,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0007239137776894805,
      "loss": 0.6938,
      "step": 19150
    },
    {
      "epoch": 0.9516241184066753,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.000723874043905831,
      "loss": 0.6474,
      "step": 19160
    },
    {
      "epoch": 0.9521207907022946,
      "grad_norm": 0.125,
      "learning_rate": 0.0007238343101221814,
      "loss": 0.66,
      "step": 19170
    },
    {
      "epoch": 0.9526174629979139,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007237945763385318,
      "loss": 0.6707,
      "step": 19180
    },
    {
      "epoch": 0.9531141352935333,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0007237548425548824,
      "loss": 0.6322,
      "step": 19190
    },
    {
      "epoch": 0.9536108075891527,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0007237151087712328,
      "loss": 0.6423,
      "step": 19200
    },
    {
      "epoch": 0.9541074798847721,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007236753749875832,
      "loss": 0.6438,
      "step": 19210
    },
    {
      "epoch": 0.9546041521803914,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0007236356412039337,
      "loss": 0.65,
      "step": 19220
    },
    {
      "epoch": 0.9551008244760107,
      "grad_norm": 0.099609375,
      "learning_rate": 0.000723595907420284,
      "loss": 0.6024,
      "step": 19230
    },
    {
      "epoch": 0.9555974967716301,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007235561736366346,
      "loss": 0.6478,
      "step": 19240
    },
    {
      "epoch": 0.9560941690672494,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007235164398529851,
      "loss": 0.6551,
      "step": 19250
    },
    {
      "epoch": 0.9565908413628688,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007234767060693355,
      "loss": 0.6244,
      "step": 19260
    },
    {
      "epoch": 0.9570875136584881,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007234369722856859,
      "loss": 0.6126,
      "step": 19270
    },
    {
      "epoch": 0.9575841859541074,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007233972385020365,
      "loss": 0.6673,
      "step": 19280
    },
    {
      "epoch": 0.9580808582497269,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007233575047183869,
      "loss": 0.6338,
      "step": 19290
    },
    {
      "epoch": 0.9585775305453462,
      "grad_norm": 0.140625,
      "learning_rate": 0.0007233177709347373,
      "loss": 0.6413,
      "step": 19300
    },
    {
      "epoch": 0.9590742028409656,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007232780371510877,
      "loss": 0.6325,
      "step": 19310
    },
    {
      "epoch": 0.9595708751365849,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007232383033674382,
      "loss": 0.6368,
      "step": 19320
    },
    {
      "epoch": 0.9600675474322042,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007231985695837886,
      "loss": 0.6868,
      "step": 19330
    },
    {
      "epoch": 0.9605642197278236,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007231588358001391,
      "loss": 0.6554,
      "step": 19340
    },
    {
      "epoch": 0.9610608920234429,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007231191020164896,
      "loss": 0.6511,
      "step": 19350
    },
    {
      "epoch": 0.9615575643190623,
      "grad_norm": 0.1015625,
      "learning_rate": 0.00072307936823284,
      "loss": 0.601,
      "step": 19360
    },
    {
      "epoch": 0.9620542366146816,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0007230396344491904,
      "loss": 0.6424,
      "step": 19370
    },
    {
      "epoch": 0.9625509089103009,
      "grad_norm": 0.126953125,
      "learning_rate": 0.000722999900665541,
      "loss": 0.6213,
      "step": 19380
    },
    {
      "epoch": 0.9630475812059204,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0007229601668818914,
      "loss": 0.6322,
      "step": 19390
    },
    {
      "epoch": 0.9635442535015397,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007229204330982418,
      "loss": 0.639,
      "step": 19400
    },
    {
      "epoch": 0.964040925797159,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0007228806993145923,
      "loss": 0.6287,
      "step": 19410
    },
    {
      "epoch": 0.9645375980927784,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007228409655309427,
      "loss": 0.6506,
      "step": 19420
    },
    {
      "epoch": 0.9650342703883977,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007228012317472931,
      "loss": 0.6512,
      "step": 19430
    },
    {
      "epoch": 0.9655309426840171,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007227614979636437,
      "loss": 0.6371,
      "step": 19440
    },
    {
      "epoch": 0.9660276149796364,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007227217641799941,
      "loss": 0.6314,
      "step": 19450
    },
    {
      "epoch": 0.9665242872752557,
      "grad_norm": 0.125,
      "learning_rate": 0.0007226820303963445,
      "loss": 0.633,
      "step": 19460
    },
    {
      "epoch": 0.9670209595708751,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.000722642296612695,
      "loss": 0.6049,
      "step": 19470
    },
    {
      "epoch": 0.9675176318664945,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007226025628290454,
      "loss": 0.6461,
      "step": 19480
    },
    {
      "epoch": 0.9680143041621139,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0007225628290453959,
      "loss": 0.6392,
      "step": 19490
    },
    {
      "epoch": 0.9685109764577332,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007225230952617463,
      "loss": 0.6055,
      "step": 19500
    },
    {
      "epoch": 0.9690076487533525,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007224833614780968,
      "loss": 0.6556,
      "step": 19510
    },
    {
      "epoch": 0.9695043210489719,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007224436276944472,
      "loss": 0.6339,
      "step": 19520
    },
    {
      "epoch": 0.9700009933445912,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007224038939107976,
      "loss": 0.655,
      "step": 19530
    },
    {
      "epoch": 0.9704976656402106,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0007223641601271482,
      "loss": 0.6511,
      "step": 19540
    },
    {
      "epoch": 0.9709943379358299,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007223244263434986,
      "loss": 0.6243,
      "step": 19550
    },
    {
      "epoch": 0.9714910102314492,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.000722284692559849,
      "loss": 0.6578,
      "step": 19560
    },
    {
      "epoch": 0.9719876825270687,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007222449587761995,
      "loss": 0.6603,
      "step": 19570
    },
    {
      "epoch": 0.972484354822688,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007222052249925499,
      "loss": 0.6494,
      "step": 19580
    },
    {
      "epoch": 0.9729810271183074,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007221654912089004,
      "loss": 0.6439,
      "step": 19590
    },
    {
      "epoch": 0.9734776994139267,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007221257574252509,
      "loss": 0.6378,
      "step": 19600
    },
    {
      "epoch": 0.973974371709546,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007220860236416013,
      "loss": 0.6525,
      "step": 19610
    },
    {
      "epoch": 0.9744710440051654,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0007220462898579517,
      "loss": 0.6577,
      "step": 19620
    },
    {
      "epoch": 0.9749677163007847,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007220065560743022,
      "loss": 0.6399,
      "step": 19630
    },
    {
      "epoch": 0.975464388596404,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007219668222906527,
      "loss": 0.6335,
      "step": 19640
    },
    {
      "epoch": 0.9759610608920234,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007219270885070031,
      "loss": 0.6269,
      "step": 19650
    },
    {
      "epoch": 0.9764577331876428,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007218873547233536,
      "loss": 0.653,
      "step": 19660
    },
    {
      "epoch": 0.9769544054832622,
      "grad_norm": 0.107421875,
      "learning_rate": 0.000721847620939704,
      "loss": 0.6416,
      "step": 19670
    },
    {
      "epoch": 0.9774510777788815,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007218078871560544,
      "loss": 0.6566,
      "step": 19680
    },
    {
      "epoch": 0.9779477500745009,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0007217681533724049,
      "loss": 0.6215,
      "step": 19690
    },
    {
      "epoch": 0.9784444223701202,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0007217284195887554,
      "loss": 0.6143,
      "step": 19700
    },
    {
      "epoch": 0.9789410946657395,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0007216886858051059,
      "loss": 0.6546,
      "step": 19710
    },
    {
      "epoch": 0.9794377669613589,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007216489520214562,
      "loss": 0.6309,
      "step": 19720
    },
    {
      "epoch": 0.9799344392569782,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007216092182378067,
      "loss": 0.6613,
      "step": 19730
    },
    {
      "epoch": 0.9804311115525975,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007215694844541573,
      "loss": 0.634,
      "step": 19740
    },
    {
      "epoch": 0.980927783848217,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007215297506705076,
      "loss": 0.6508,
      "step": 19750
    },
    {
      "epoch": 0.9814244561438363,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007214900168868581,
      "loss": 0.6455,
      "step": 19760
    },
    {
      "epoch": 0.9819211284394557,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007214502831032085,
      "loss": 0.6486,
      "step": 19770
    },
    {
      "epoch": 0.982417800735075,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007214105493195589,
      "loss": 0.6511,
      "step": 19780
    },
    {
      "epoch": 0.9829144730306943,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007213708155359095,
      "loss": 0.6744,
      "step": 19790
    },
    {
      "epoch": 0.9834111453263137,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007213310817522599,
      "loss": 0.6283,
      "step": 19800
    },
    {
      "epoch": 0.983907817621933,
      "grad_norm": 0.15625,
      "learning_rate": 0.0007212913479686103,
      "loss": 0.666,
      "step": 19810
    },
    {
      "epoch": 0.9844044899175524,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007212516141849608,
      "loss": 0.6695,
      "step": 19820
    },
    {
      "epoch": 0.9849011622131717,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007212118804013112,
      "loss": 0.6422,
      "step": 19830
    },
    {
      "epoch": 0.9853978345087911,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007211721466176617,
      "loss": 0.6549,
      "step": 19840
    },
    {
      "epoch": 0.9858945068044105,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007211324128340122,
      "loss": 0.6556,
      "step": 19850
    },
    {
      "epoch": 0.9863911791000298,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007210926790503626,
      "loss": 0.645,
      "step": 19860
    },
    {
      "epoch": 0.9868878513956492,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007210529452667131,
      "loss": 0.621,
      "step": 19870
    },
    {
      "epoch": 0.9873845236912685,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0007210132114830635,
      "loss": 0.6638,
      "step": 19880
    },
    {
      "epoch": 0.9878811959868878,
      "grad_norm": 0.130859375,
      "learning_rate": 0.000720973477699414,
      "loss": 0.6561,
      "step": 19890
    },
    {
      "epoch": 0.9883778682825072,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007209337439157645,
      "loss": 0.6335,
      "step": 19900
    },
    {
      "epoch": 0.9888745405781265,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0007208940101321148,
      "loss": 0.6598,
      "step": 19910
    },
    {
      "epoch": 0.9893712128737459,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007208542763484653,
      "loss": 0.6381,
      "step": 19920
    },
    {
      "epoch": 0.9898678851693653,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0007208145425648158,
      "loss": 0.6276,
      "step": 19930
    },
    {
      "epoch": 0.9903645574649846,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007207748087811662,
      "loss": 0.6665,
      "step": 19940
    },
    {
      "epoch": 0.990861229760604,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007207350749975167,
      "loss": 0.6354,
      "step": 19950
    },
    {
      "epoch": 0.9913579020562233,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007206953412138671,
      "loss": 0.6357,
      "step": 19960
    },
    {
      "epoch": 0.9918545743518427,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007206556074302175,
      "loss": 0.6177,
      "step": 19970
    },
    {
      "epoch": 0.992351246647462,
      "grad_norm": 0.107421875,
      "learning_rate": 0.000720615873646568,
      "loss": 0.6346,
      "step": 19980
    },
    {
      "epoch": 0.9928479189430813,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0007205761398629185,
      "loss": 0.6313,
      "step": 19990
    },
    {
      "epoch": 0.9933445912387007,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007205364060792689,
      "loss": 0.6217,
      "step": 20000
    },
    {
      "epoch": 0.99384126353432,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007204966722956194,
      "loss": 0.6423,
      "step": 20010
    },
    {
      "epoch": 0.9943379358299395,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0007204569385119698,
      "loss": 0.6366,
      "step": 20020
    },
    {
      "epoch": 0.9948346081255588,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0007204172047283203,
      "loss": 0.6465,
      "step": 20030
    },
    {
      "epoch": 0.9953312804211781,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007203774709446708,
      "loss": 0.6485,
      "step": 20040
    },
    {
      "epoch": 0.9958279527167975,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0007203377371610212,
      "loss": 0.6753,
      "step": 20050
    },
    {
      "epoch": 0.9963246250124168,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0007202980033773717,
      "loss": 0.6464,
      "step": 20060
    },
    {
      "epoch": 0.9968212973080361,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007202582695937221,
      "loss": 0.6352,
      "step": 20070
    },
    {
      "epoch": 0.9973179696036555,
      "grad_norm": 0.125,
      "learning_rate": 0.0007202185358100725,
      "loss": 0.6392,
      "step": 20080
    },
    {
      "epoch": 0.9978146418992748,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0007201788020264231,
      "loss": 0.6418,
      "step": 20090
    },
    {
      "epoch": 0.9983113141948942,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0007201390682427734,
      "loss": 0.6289,
      "step": 20100
    },
    {
      "epoch": 0.9988079864905136,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0007200993344591239,
      "loss": 0.6458,
      "step": 20110
    },
    {
      "epoch": 0.999304658786133,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007200596006754744,
      "loss": 0.6511,
      "step": 20120
    },
    {
      "epoch": 0.9998013310817523,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007200198668918247,
      "loss": 0.6132,
      "step": 20130
    },
    {
      "epoch": 1.0002980033773716,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007199801331081753,
      "loss": 0.6431,
      "step": 20140
    },
    {
      "epoch": 1.0007946756729909,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007199403993245258,
      "loss": 0.6414,
      "step": 20150
    },
    {
      "epoch": 1.0012913479686103,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007199006655408762,
      "loss": 0.6431,
      "step": 20160
    },
    {
      "epoch": 1.0017880202642298,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0007198609317572266,
      "loss": 0.6413,
      "step": 20170
    },
    {
      "epoch": 1.002284692559849,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.000719821197973577,
      "loss": 0.6061,
      "step": 20180
    },
    {
      "epoch": 1.0027813648554684,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007197814641899276,
      "loss": 0.6099,
      "step": 20190
    },
    {
      "epoch": 1.0032780371510877,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.000719741730406278,
      "loss": 0.6247,
      "step": 20200
    },
    {
      "epoch": 1.003774709446707,
      "grad_norm": 0.171875,
      "learning_rate": 0.0007197019966226284,
      "loss": 0.6223,
      "step": 20210
    },
    {
      "epoch": 1.0042713817423263,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007196622628389789,
      "loss": 0.6178,
      "step": 20220
    },
    {
      "epoch": 1.0047680540379458,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007196225290553293,
      "loss": 0.6223,
      "step": 20230
    },
    {
      "epoch": 1.005264726333565,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007195827952716798,
      "loss": 0.6333,
      "step": 20240
    },
    {
      "epoch": 1.0057613986291845,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007195430614880303,
      "loss": 0.6397,
      "step": 20250
    },
    {
      "epoch": 1.006258070924804,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007195033277043807,
      "loss": 0.6309,
      "step": 20260
    },
    {
      "epoch": 1.0067547432204231,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007194635939207311,
      "loss": 0.6561,
      "step": 20270
    },
    {
      "epoch": 1.0072514155160426,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007194238601370816,
      "loss": 0.6394,
      "step": 20280
    },
    {
      "epoch": 1.0077480878116618,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0007193841263534319,
      "loss": 0.6141,
      "step": 20290
    },
    {
      "epoch": 1.0082447601072813,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007193443925697825,
      "loss": 0.6236,
      "step": 20300
    },
    {
      "epoch": 1.0087414324029005,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.000719304658786133,
      "loss": 0.6215,
      "step": 20310
    },
    {
      "epoch": 1.00923810469852,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007192649250024834,
      "loss": 0.5914,
      "step": 20320
    },
    {
      "epoch": 1.0097347769941392,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007192251912188338,
      "loss": 0.6805,
      "step": 20330
    },
    {
      "epoch": 1.0102314492897586,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0007191854574351844,
      "loss": 0.6498,
      "step": 20340
    },
    {
      "epoch": 1.010728121585378,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0007191457236515348,
      "loss": 0.6419,
      "step": 20350
    },
    {
      "epoch": 1.0112247938809973,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007191059898678852,
      "loss": 0.614,
      "step": 20360
    },
    {
      "epoch": 1.0117214661766167,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007190662560842356,
      "loss": 0.6385,
      "step": 20370
    },
    {
      "epoch": 1.012218138472236,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0007190265223005861,
      "loss": 0.6472,
      "step": 20380
    },
    {
      "epoch": 1.0127148107678554,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007189867885169365,
      "loss": 0.6339,
      "step": 20390
    },
    {
      "epoch": 1.0132114830634746,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.000718947054733287,
      "loss": 0.629,
      "step": 20400
    },
    {
      "epoch": 1.013708155359094,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007189073209496375,
      "loss": 0.6393,
      "step": 20410
    },
    {
      "epoch": 1.0142048276547133,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0007188675871659879,
      "loss": 0.615,
      "step": 20420
    },
    {
      "epoch": 1.0147014999503328,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007188278533823383,
      "loss": 0.6203,
      "step": 20430
    },
    {
      "epoch": 1.0151981722459522,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0007187881195986889,
      "loss": 0.6366,
      "step": 20440
    },
    {
      "epoch": 1.0156948445415714,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007187483858150393,
      "loss": 0.6522,
      "step": 20450
    },
    {
      "epoch": 1.016191516837191,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0007187086520313897,
      "loss": 0.6664,
      "step": 20460
    },
    {
      "epoch": 1.0166881891328101,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007186689182477402,
      "loss": 0.6364,
      "step": 20470
    },
    {
      "epoch": 1.0171848614284296,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007186291844640906,
      "loss": 0.6269,
      "step": 20480
    },
    {
      "epoch": 1.0176815337240488,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.000718589450680441,
      "loss": 0.6337,
      "step": 20490
    },
    {
      "epoch": 1.0181782060196682,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0007185497168967916,
      "loss": 0.6397,
      "step": 20500
    },
    {
      "epoch": 1.0186748783152875,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.000718509983113142,
      "loss": 0.6124,
      "step": 20510
    },
    {
      "epoch": 1.019171550610907,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007184702493294924,
      "loss": 0.6223,
      "step": 20520
    },
    {
      "epoch": 1.0196682229065264,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0007184305155458429,
      "loss": 0.6654,
      "step": 20530
    },
    {
      "epoch": 1.0201648952021456,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007183907817621933,
      "loss": 0.6354,
      "step": 20540
    },
    {
      "epoch": 1.020661567497765,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007183510479785438,
      "loss": 0.6546,
      "step": 20550
    },
    {
      "epoch": 1.0211582397933843,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007183113141948942,
      "loss": 0.6305,
      "step": 20560
    },
    {
      "epoch": 1.0216549120890037,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007182715804112447,
      "loss": 0.6463,
      "step": 20570
    },
    {
      "epoch": 1.022151584384623,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007182318466275951,
      "loss": 0.6449,
      "step": 20580
    },
    {
      "epoch": 1.0226482566802424,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0007181921128439455,
      "loss": 0.6536,
      "step": 20590
    },
    {
      "epoch": 1.0231449289758616,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007181523790602961,
      "loss": 0.6502,
      "step": 20600
    },
    {
      "epoch": 1.023641601271481,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007181126452766466,
      "loss": 0.6262,
      "step": 20610
    },
    {
      "epoch": 1.0241382735671005,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007180729114929969,
      "loss": 0.6113,
      "step": 20620
    },
    {
      "epoch": 1.0246349458627197,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0007180331777093474,
      "loss": 0.6546,
      "step": 20630
    },
    {
      "epoch": 1.0251316181583392,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0007179934439256978,
      "loss": 0.6563,
      "step": 20640
    },
    {
      "epoch": 1.0256282904539584,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007179537101420483,
      "loss": 0.6274,
      "step": 20650
    },
    {
      "epoch": 1.0261249627495779,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007179139763583988,
      "loss": 0.636,
      "step": 20660
    },
    {
      "epoch": 1.026621635045197,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007178742425747492,
      "loss": 0.6469,
      "step": 20670
    },
    {
      "epoch": 1.0271183073408165,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007178345087910996,
      "loss": 0.6293,
      "step": 20680
    },
    {
      "epoch": 1.0276149796364358,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007177947750074501,
      "loss": 0.6118,
      "step": 20690
    },
    {
      "epoch": 1.0281116519320552,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007177550412238006,
      "loss": 0.6164,
      "step": 20700
    },
    {
      "epoch": 1.0286083242276747,
      "grad_norm": 0.134765625,
      "learning_rate": 0.000717715307440151,
      "loss": 0.6503,
      "step": 20710
    },
    {
      "epoch": 1.029104996523294,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007176755736565015,
      "loss": 0.6428,
      "step": 20720
    },
    {
      "epoch": 1.0296016688189134,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0007176358398728519,
      "loss": 0.6194,
      "step": 20730
    },
    {
      "epoch": 1.0300983411145326,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0007175961060892023,
      "loss": 0.6299,
      "step": 20740
    },
    {
      "epoch": 1.030595013410152,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007175563723055529,
      "loss": 0.6277,
      "step": 20750
    },
    {
      "epoch": 1.0310916857057713,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007175166385219033,
      "loss": 0.6155,
      "step": 20760
    },
    {
      "epoch": 1.0315883580013907,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0007174769047382538,
      "loss": 0.6441,
      "step": 20770
    },
    {
      "epoch": 1.03208503029701,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007174371709546041,
      "loss": 0.6151,
      "step": 20780
    },
    {
      "epoch": 1.0325817025926294,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0007173974371709546,
      "loss": 0.6207,
      "step": 20790
    },
    {
      "epoch": 1.0330783748882488,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007173577033873052,
      "loss": 0.6286,
      "step": 20800
    },
    {
      "epoch": 1.033575047183868,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007173179696036555,
      "loss": 0.661,
      "step": 20810
    },
    {
      "epoch": 1.0340717194794875,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.000717278235820006,
      "loss": 0.6232,
      "step": 20820
    },
    {
      "epoch": 1.0345683917751067,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007172385020363564,
      "loss": 0.6403,
      "step": 20830
    },
    {
      "epoch": 1.0350650640707262,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007171987682527068,
      "loss": 0.6231,
      "step": 20840
    },
    {
      "epoch": 1.0355617363663454,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007171590344690574,
      "loss": 0.6646,
      "step": 20850
    },
    {
      "epoch": 1.0360584086619649,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007171193006854078,
      "loss": 0.6139,
      "step": 20860
    },
    {
      "epoch": 1.036555080957584,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0007170795669017582,
      "loss": 0.6497,
      "step": 20870
    },
    {
      "epoch": 1.0370517532532035,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007170398331181087,
      "loss": 0.644,
      "step": 20880
    },
    {
      "epoch": 1.037548425548823,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007170000993344591,
      "loss": 0.6199,
      "step": 20890
    },
    {
      "epoch": 1.0380450978444422,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007169603655508097,
      "loss": 0.6642,
      "step": 20900
    },
    {
      "epoch": 1.0385417701400617,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007169206317671601,
      "loss": 0.6234,
      "step": 20910
    },
    {
      "epoch": 1.0390384424356809,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0007168808979835105,
      "loss": 0.6432,
      "step": 20920
    },
    {
      "epoch": 1.0395351147313003,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.000716841164199861,
      "loss": 0.6174,
      "step": 20930
    },
    {
      "epoch": 1.0400317870269196,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007168014304162114,
      "loss": 0.6398,
      "step": 20940
    },
    {
      "epoch": 1.040528459322539,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007167616966325619,
      "loss": 0.6372,
      "step": 20950
    },
    {
      "epoch": 1.0410251316181582,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007167219628489124,
      "loss": 0.6382,
      "step": 20960
    },
    {
      "epoch": 1.0415218039137777,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007166822290652627,
      "loss": 0.6185,
      "step": 20970
    },
    {
      "epoch": 1.0420184762093971,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007166424952816132,
      "loss": 0.6185,
      "step": 20980
    },
    {
      "epoch": 1.0425151485050164,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0007166027614979637,
      "loss": 0.6616,
      "step": 20990
    },
    {
      "epoch": 1.0430118208006358,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007165630277143141,
      "loss": 0.6378,
      "step": 21000
    },
    {
      "epoch": 1.043508493096255,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007165232939306646,
      "loss": 0.6186,
      "step": 21010
    },
    {
      "epoch": 1.0440051653918745,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007164835601470151,
      "loss": 0.6414,
      "step": 21020
    },
    {
      "epoch": 1.0445018376874937,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007164438263633654,
      "loss": 0.6409,
      "step": 21030
    },
    {
      "epoch": 1.0449985099831132,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007164040925797159,
      "loss": 0.6121,
      "step": 21040
    },
    {
      "epoch": 1.0454951822787324,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007163643587960664,
      "loss": 0.614,
      "step": 21050
    },
    {
      "epoch": 1.0459918545743518,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0007163246250124169,
      "loss": 0.6208,
      "step": 21060
    },
    {
      "epoch": 1.0464885268699713,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007162848912287673,
      "loss": 0.6057,
      "step": 21070
    },
    {
      "epoch": 1.0469851991655905,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007162451574451177,
      "loss": 0.6317,
      "step": 21080
    },
    {
      "epoch": 1.04748187146121,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0007162054236614682,
      "loss": 0.6259,
      "step": 21090
    },
    {
      "epoch": 1.0479785437568292,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007161656898778187,
      "loss": 0.6358,
      "step": 21100
    },
    {
      "epoch": 1.0484752160524486,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007161259560941691,
      "loss": 0.6219,
      "step": 21110
    },
    {
      "epoch": 1.0489718883480679,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007160862223105196,
      "loss": 0.6467,
      "step": 21120
    },
    {
      "epoch": 1.0494685606436873,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.00071604648852687,
      "loss": 0.5926,
      "step": 21130
    },
    {
      "epoch": 1.0499652329393065,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007160067547432204,
      "loss": 0.6026,
      "step": 21140
    },
    {
      "epoch": 1.050461905234926,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.000715967020959571,
      "loss": 0.6293,
      "step": 21150
    },
    {
      "epoch": 1.0509585775305454,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007159272871759213,
      "loss": 0.6204,
      "step": 21160
    },
    {
      "epoch": 1.0514552498261647,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0007158875533922718,
      "loss": 0.6413,
      "step": 21170
    },
    {
      "epoch": 1.0519519221217841,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0007158478196086223,
      "loss": 0.6339,
      "step": 21180
    },
    {
      "epoch": 1.0524485944174033,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007158080858249726,
      "loss": 0.6545,
      "step": 21190
    },
    {
      "epoch": 1.0529452667130228,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007157683520413232,
      "loss": 0.6232,
      "step": 21200
    },
    {
      "epoch": 1.053441939008642,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007157286182576737,
      "loss": 0.6383,
      "step": 21210
    },
    {
      "epoch": 1.0539386113042615,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0007156888844740241,
      "loss": 0.647,
      "step": 21220
    },
    {
      "epoch": 1.0544352835998807,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007156491506903745,
      "loss": 0.6368,
      "step": 21230
    },
    {
      "epoch": 1.0549319558955002,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007156094169067249,
      "loss": 0.637,
      "step": 21240
    },
    {
      "epoch": 1.0554286281911196,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007155696831230755,
      "loss": 0.6766,
      "step": 21250
    },
    {
      "epoch": 1.0559253004867388,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007155299493394259,
      "loss": 0.6468,
      "step": 21260
    },
    {
      "epoch": 1.0564219727823583,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007154902155557763,
      "loss": 0.6206,
      "step": 21270
    },
    {
      "epoch": 1.0569186450779775,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0007154504817721268,
      "loss": 0.6368,
      "step": 21280
    },
    {
      "epoch": 1.057415317373597,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007154107479884772,
      "loss": 0.6367,
      "step": 21290
    },
    {
      "epoch": 1.0579119896692162,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007153710142048277,
      "loss": 0.593,
      "step": 21300
    },
    {
      "epoch": 1.0584086619648356,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0007153312804211782,
      "loss": 0.6003,
      "step": 21310
    },
    {
      "epoch": 1.0589053342604549,
      "grad_norm": 0.125,
      "learning_rate": 0.0007152915466375286,
      "loss": 0.6045,
      "step": 21320
    },
    {
      "epoch": 1.0594020065560743,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.000715251812853879,
      "loss": 0.6367,
      "step": 21330
    },
    {
      "epoch": 1.0598986788516938,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007152120790702295,
      "loss": 0.616,
      "step": 21340
    },
    {
      "epoch": 1.060395351147313,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.00071517234528658,
      "loss": 0.5995,
      "step": 21350
    },
    {
      "epoch": 1.0608920234429324,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007151326115029304,
      "loss": 0.6266,
      "step": 21360
    },
    {
      "epoch": 1.0613886957385517,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007150928777192809,
      "loss": 0.6305,
      "step": 21370
    },
    {
      "epoch": 1.061885368034171,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007150531439356313,
      "loss": 0.6097,
      "step": 21380
    },
    {
      "epoch": 1.0623820403297903,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0007150134101519817,
      "loss": 0.6639,
      "step": 21390
    },
    {
      "epoch": 1.0628787126254098,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0007149736763683323,
      "loss": 0.5871,
      "step": 21400
    },
    {
      "epoch": 1.063375384921029,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0007149339425846827,
      "loss": 0.6388,
      "step": 21410
    },
    {
      "epoch": 1.0638720572166485,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0007148942088010331,
      "loss": 0.6103,
      "step": 21420
    },
    {
      "epoch": 1.064368729512268,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0007148544750173835,
      "loss": 0.6276,
      "step": 21430
    },
    {
      "epoch": 1.0648654018078871,
      "grad_norm": 0.109375,
      "learning_rate": 0.000714814741233734,
      "loss": 0.6362,
      "step": 21440
    },
    {
      "epoch": 1.0653620741035066,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007147750074500845,
      "loss": 0.6413,
      "step": 21450
    },
    {
      "epoch": 1.0658587463991258,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007147352736664349,
      "loss": 0.5809,
      "step": 21460
    },
    {
      "epoch": 1.0663554186947453,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007146955398827854,
      "loss": 0.6338,
      "step": 21470
    },
    {
      "epoch": 1.0668520909903645,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007146558060991358,
      "loss": 0.6367,
      "step": 21480
    },
    {
      "epoch": 1.067348763285984,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007146160723154862,
      "loss": 0.6383,
      "step": 21490
    },
    {
      "epoch": 1.0678454355816032,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007145763385318368,
      "loss": 0.6074,
      "step": 21500
    },
    {
      "epoch": 1.0683421078772226,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007145366047481872,
      "loss": 0.606,
      "step": 21510
    },
    {
      "epoch": 1.068838780172842,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0007144968709645376,
      "loss": 0.641,
      "step": 21520
    },
    {
      "epoch": 1.0693354524684613,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007144571371808881,
      "loss": 0.6228,
      "step": 21530
    },
    {
      "epoch": 1.0698321247640807,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0007144174033972385,
      "loss": 0.6205,
      "step": 21540
    },
    {
      "epoch": 1.0703287970597,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.000714377669613589,
      "loss": 0.6452,
      "step": 21550
    },
    {
      "epoch": 1.0708254693553194,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007143379358299395,
      "loss": 0.638,
      "step": 21560
    },
    {
      "epoch": 1.0713221416509386,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0007142982020462899,
      "loss": 0.6696,
      "step": 21570
    },
    {
      "epoch": 1.071818813946558,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0007142584682626403,
      "loss": 0.6129,
      "step": 21580
    },
    {
      "epoch": 1.0723154862421773,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0007142187344789908,
      "loss": 0.6459,
      "step": 21590
    },
    {
      "epoch": 1.0728121585377968,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007141790006953413,
      "loss": 0.6551,
      "step": 21600
    },
    {
      "epoch": 1.0733088308334162,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007141392669116917,
      "loss": 0.6482,
      "step": 21610
    },
    {
      "epoch": 1.0738055031290354,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007140995331280422,
      "loss": 0.5979,
      "step": 21620
    },
    {
      "epoch": 1.074302175424655,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007140597993443926,
      "loss": 0.6278,
      "step": 21630
    },
    {
      "epoch": 1.0747988477202741,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.000714020065560743,
      "loss": 0.627,
      "step": 21640
    },
    {
      "epoch": 1.0752955200158936,
      "grad_norm": 0.09375,
      "learning_rate": 0.0007139803317770934,
      "loss": 0.6193,
      "step": 21650
    },
    {
      "epoch": 1.0757921923115128,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.000713940597993444,
      "loss": 0.6542,
      "step": 21660
    },
    {
      "epoch": 1.0762888646071322,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007139008642097945,
      "loss": 0.6136,
      "step": 21670
    },
    {
      "epoch": 1.0767855369027515,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007138611304261448,
      "loss": 0.6423,
      "step": 21680
    },
    {
      "epoch": 1.077282209198371,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0007138213966424953,
      "loss": 0.6457,
      "step": 21690
    },
    {
      "epoch": 1.0777788814939901,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007137816628588457,
      "loss": 0.6406,
      "step": 21700
    },
    {
      "epoch": 1.0782755537896096,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007137419290751962,
      "loss": 0.6145,
      "step": 21710
    },
    {
      "epoch": 1.078772226085229,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0007137021952915467,
      "loss": 0.6083,
      "step": 21720
    },
    {
      "epoch": 1.0792688983808483,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0007136624615078971,
      "loss": 0.6084,
      "step": 21730
    },
    {
      "epoch": 1.0797655706764677,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007136227277242475,
      "loss": 0.6413,
      "step": 21740
    },
    {
      "epoch": 1.080262242972087,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.000713582993940598,
      "loss": 0.6146,
      "step": 21750
    },
    {
      "epoch": 1.0807589152677064,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007135432601569485,
      "loss": 0.6419,
      "step": 21760
    },
    {
      "epoch": 1.0812555875633256,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007135035263732989,
      "loss": 0.6509,
      "step": 21770
    },
    {
      "epoch": 1.081752259858945,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007134637925896494,
      "loss": 0.6484,
      "step": 21780
    },
    {
      "epoch": 1.0822489321545645,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007134240588059998,
      "loss": 0.6472,
      "step": 21790
    },
    {
      "epoch": 1.0827456044501838,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007133843250223504,
      "loss": 0.6434,
      "step": 21800
    },
    {
      "epoch": 1.0832422767458032,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0007133445912387008,
      "loss": 0.6067,
      "step": 21810
    },
    {
      "epoch": 1.0837389490414224,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0007133048574550512,
      "loss": 0.6255,
      "step": 21820
    },
    {
      "epoch": 1.0842356213370419,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0007132651236714017,
      "loss": 0.6374,
      "step": 21830
    },
    {
      "epoch": 1.084732293632661,
      "grad_norm": 0.087890625,
      "learning_rate": 0.000713225389887752,
      "loss": 0.6203,
      "step": 21840
    },
    {
      "epoch": 1.0852289659282806,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007131856561041025,
      "loss": 0.6495,
      "step": 21850
    },
    {
      "epoch": 1.0857256382238998,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007131459223204531,
      "loss": 0.6453,
      "step": 21860
    },
    {
      "epoch": 1.0862223105195192,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0007131061885368034,
      "loss": 0.5869,
      "step": 21870
    },
    {
      "epoch": 1.0867189828151385,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0007130664547531539,
      "loss": 0.6145,
      "step": 21880
    },
    {
      "epoch": 1.087215655110758,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007130267209695044,
      "loss": 0.6281,
      "step": 21890
    },
    {
      "epoch": 1.0877123274063774,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007129869871858547,
      "loss": 0.6336,
      "step": 21900
    },
    {
      "epoch": 1.0882089997019966,
      "grad_norm": 0.087890625,
      "learning_rate": 0.0007129472534022053,
      "loss": 0.6367,
      "step": 21910
    },
    {
      "epoch": 1.088705671997616,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007129075196185557,
      "loss": 0.6467,
      "step": 21920
    },
    {
      "epoch": 1.0892023442932353,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007128677858349061,
      "loss": 0.633,
      "step": 21930
    },
    {
      "epoch": 1.0896990165888547,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0007128280520512566,
      "loss": 0.6505,
      "step": 21940
    },
    {
      "epoch": 1.090195688884474,
      "grad_norm": 0.115234375,
      "learning_rate": 0.000712788318267607,
      "loss": 0.6666,
      "step": 21950
    },
    {
      "epoch": 1.0906923611800934,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007127485844839576,
      "loss": 0.6298,
      "step": 21960
    },
    {
      "epoch": 1.0911890334757128,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.000712708850700308,
      "loss": 0.6172,
      "step": 21970
    },
    {
      "epoch": 1.091685705771332,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007126691169166584,
      "loss": 0.6471,
      "step": 21980
    },
    {
      "epoch": 1.0921823780669515,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007126293831330089,
      "loss": 0.649,
      "step": 21990
    },
    {
      "epoch": 1.0926790503625707,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007125896493493593,
      "loss": 0.5827,
      "step": 22000
    },
    {
      "epoch": 1.0931757226581902,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0007125499155657098,
      "loss": 0.6342,
      "step": 22010
    },
    {
      "epoch": 1.0936723949538094,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007125101817820603,
      "loss": 0.6023,
      "step": 22020
    },
    {
      "epoch": 1.0941690672494289,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0007124704479984106,
      "loss": 0.6409,
      "step": 22030
    },
    {
      "epoch": 1.094665739545048,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007124307142147611,
      "loss": 0.6335,
      "step": 22040
    },
    {
      "epoch": 1.0951624118406675,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0007123909804311117,
      "loss": 0.6375,
      "step": 22050
    },
    {
      "epoch": 1.0956590841362868,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.000712351246647462,
      "loss": 0.6516,
      "step": 22060
    },
    {
      "epoch": 1.0961557564319062,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007123115128638125,
      "loss": 0.6722,
      "step": 22070
    },
    {
      "epoch": 1.0966524287275257,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.000712271779080163,
      "loss": 0.6483,
      "step": 22080
    },
    {
      "epoch": 1.097149101023145,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007122320452965133,
      "loss": 0.6566,
      "step": 22090
    },
    {
      "epoch": 1.0976457733187643,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007121923115128638,
      "loss": 0.6415,
      "step": 22100
    },
    {
      "epoch": 1.0981424456143836,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007121525777292143,
      "loss": 0.6417,
      "step": 22110
    },
    {
      "epoch": 1.098639117910003,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0007121128439455648,
      "loss": 0.6333,
      "step": 22120
    },
    {
      "epoch": 1.0991357902056222,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0007120731101619152,
      "loss": 0.6129,
      "step": 22130
    },
    {
      "epoch": 1.0996324625012417,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0007120333763782656,
      "loss": 0.5927,
      "step": 22140
    },
    {
      "epoch": 1.1001291347968611,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007119936425946161,
      "loss": 0.627,
      "step": 22150
    },
    {
      "epoch": 1.1006258070924804,
      "grad_norm": 0.171875,
      "learning_rate": 0.0007119539088109666,
      "loss": 0.5961,
      "step": 22160
    },
    {
      "epoch": 1.1011224793880998,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.000711914175027317,
      "loss": 0.6226,
      "step": 22170
    },
    {
      "epoch": 1.101619151683719,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007118744412436675,
      "loss": 0.6391,
      "step": 22180
    },
    {
      "epoch": 1.1021158239793385,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007118347074600179,
      "loss": 0.6212,
      "step": 22190
    },
    {
      "epoch": 1.1026124962749577,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0007117949736763683,
      "loss": 0.6268,
      "step": 22200
    },
    {
      "epoch": 1.1031091685705772,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007117552398927189,
      "loss": 0.6589,
      "step": 22210
    },
    {
      "epoch": 1.1036058408661964,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0007117155061090692,
      "loss": 0.6267,
      "step": 22220
    },
    {
      "epoch": 1.1041025131618158,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007116757723254197,
      "loss": 0.613,
      "step": 22230
    },
    {
      "epoch": 1.104599185457435,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007116360385417702,
      "loss": 0.6083,
      "step": 22240
    },
    {
      "epoch": 1.1050958577530545,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007115963047581206,
      "loss": 0.613,
      "step": 22250
    },
    {
      "epoch": 1.105592530048674,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0007115565709744711,
      "loss": 0.5983,
      "step": 22260
    },
    {
      "epoch": 1.1060892023442932,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0007115168371908216,
      "loss": 0.6171,
      "step": 22270
    },
    {
      "epoch": 1.1065858746399126,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.000711477103407172,
      "loss": 0.6404,
      "step": 22280
    },
    {
      "epoch": 1.1070825469355319,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007114373696235224,
      "loss": 0.6187,
      "step": 22290
    },
    {
      "epoch": 1.1075792192311513,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0007113976358398728,
      "loss": 0.6012,
      "step": 22300
    },
    {
      "epoch": 1.1080758915267706,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0007113579020562234,
      "loss": 0.6123,
      "step": 22310
    },
    {
      "epoch": 1.10857256382239,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007113181682725738,
      "loss": 0.6281,
      "step": 22320
    },
    {
      "epoch": 1.1090692361180094,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0007112784344889242,
      "loss": 0.6013,
      "step": 22330
    },
    {
      "epoch": 1.1095659084136287,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007112387007052747,
      "loss": 0.6682,
      "step": 22340
    },
    {
      "epoch": 1.1100625807092481,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0007111989669216251,
      "loss": 0.6218,
      "step": 22350
    },
    {
      "epoch": 1.1105592530048674,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0007111592331379756,
      "loss": 0.6293,
      "step": 22360
    },
    {
      "epoch": 1.1110559253004868,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0007111194993543261,
      "loss": 0.6096,
      "step": 22370
    },
    {
      "epoch": 1.111552597596106,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007110797655706765,
      "loss": 0.628,
      "step": 22380
    },
    {
      "epoch": 1.1120492698917255,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007110400317870269,
      "loss": 0.6113,
      "step": 22390
    },
    {
      "epoch": 1.1125459421873447,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0007110002980033774,
      "loss": 0.5945,
      "step": 22400
    },
    {
      "epoch": 1.1130426144829642,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0007109605642197279,
      "loss": 0.6667,
      "step": 22410
    },
    {
      "epoch": 1.1135392867785834,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0007109208304360783,
      "loss": 0.6661,
      "step": 22420
    },
    {
      "epoch": 1.1140359590742028,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007108810966524288,
      "loss": 0.6505,
      "step": 22430
    },
    {
      "epoch": 1.1145326313698223,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007108413628687792,
      "loss": 0.6354,
      "step": 22440
    },
    {
      "epoch": 1.1150293036654415,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007108016290851296,
      "loss": 0.6554,
      "step": 22450
    },
    {
      "epoch": 1.115525975961061,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0007107618953014802,
      "loss": 0.6206,
      "step": 22460
    },
    {
      "epoch": 1.1160226482566802,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007107221615178306,
      "loss": 0.6328,
      "step": 22470
    },
    {
      "epoch": 1.1165193205522996,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.000710682427734181,
      "loss": 0.5999,
      "step": 22480
    },
    {
      "epoch": 1.1170159928479189,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007106426939505314,
      "loss": 0.6318,
      "step": 22490
    },
    {
      "epoch": 1.1175126651435383,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007106029601668819,
      "loss": 0.6513,
      "step": 22500
    },
    {
      "epoch": 1.1180093374391578,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007105632263832324,
      "loss": 0.6258,
      "step": 22510
    },
    {
      "epoch": 1.118506009734777,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007105234925995828,
      "loss": 0.6303,
      "step": 22520
    },
    {
      "epoch": 1.1190026820303964,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007104837588159333,
      "loss": 0.709,
      "step": 22530
    },
    {
      "epoch": 1.1194993543260157,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007104440250322838,
      "loss": 0.6219,
      "step": 22540
    },
    {
      "epoch": 1.119996026621635,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007104042912486341,
      "loss": 0.6181,
      "step": 22550
    },
    {
      "epoch": 1.1204926989172543,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007103645574649847,
      "loss": 0.621,
      "step": 22560
    },
    {
      "epoch": 1.1209893712128738,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007103248236813351,
      "loss": 0.619,
      "step": 22570
    },
    {
      "epoch": 1.121486043508493,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0007102850898976855,
      "loss": 0.619,
      "step": 22580
    },
    {
      "epoch": 1.1219827158041125,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000710245356114036,
      "loss": 0.6185,
      "step": 22590
    },
    {
      "epoch": 1.1224793880997317,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007102056223303864,
      "loss": 0.6314,
      "step": 22600
    },
    {
      "epoch": 1.1229760603953511,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0007101658885467369,
      "loss": 0.6068,
      "step": 22610
    },
    {
      "epoch": 1.1234727326909706,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007101261547630874,
      "loss": 0.6185,
      "step": 22620
    },
    {
      "epoch": 1.1239694049865898,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007100864209794378,
      "loss": 0.6095,
      "step": 22630
    },
    {
      "epoch": 1.1244660772822093,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007100466871957882,
      "loss": 0.6314,
      "step": 22640
    },
    {
      "epoch": 1.1249627495778285,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007100069534121387,
      "loss": 0.6239,
      "step": 22650
    },
    {
      "epoch": 1.125459421873448,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007099672196284892,
      "loss": 0.6411,
      "step": 22660
    },
    {
      "epoch": 1.1259560941690672,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007099274858448396,
      "loss": 0.6537,
      "step": 22670
    },
    {
      "epoch": 1.1264527664646866,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0007098877520611901,
      "loss": 0.6395,
      "step": 22680
    },
    {
      "epoch": 1.126949438760306,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007098480182775405,
      "loss": 0.6465,
      "step": 22690
    },
    {
      "epoch": 1.1274461110559253,
      "grad_norm": 0.123046875,
      "learning_rate": 0.000709808284493891,
      "loss": 0.5975,
      "step": 22700
    },
    {
      "epoch": 1.1279427833515447,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0007097685507102414,
      "loss": 0.6149,
      "step": 22710
    },
    {
      "epoch": 1.128439455647164,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0007097288169265919,
      "loss": 0.625,
      "step": 22720
    },
    {
      "epoch": 1.1289361279427834,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007096890831429424,
      "loss": 0.6185,
      "step": 22730
    },
    {
      "epoch": 1.1294328002384026,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007096493493592927,
      "loss": 0.6329,
      "step": 22740
    },
    {
      "epoch": 1.129929472534022,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0007096096155756432,
      "loss": 0.6179,
      "step": 22750
    },
    {
      "epoch": 1.1304261448296413,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0007095698817919937,
      "loss": 0.6177,
      "step": 22760
    },
    {
      "epoch": 1.1309228171252608,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007095301480083441,
      "loss": 0.6089,
      "step": 22770
    },
    {
      "epoch": 1.13141948942088,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007094904142246946,
      "loss": 0.6127,
      "step": 22780
    },
    {
      "epoch": 1.1319161617164994,
      "grad_norm": 0.1171875,
      "learning_rate": 0.000709450680441045,
      "loss": 0.6463,
      "step": 22790
    },
    {
      "epoch": 1.132412834012119,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007094109466573954,
      "loss": 0.6197,
      "step": 22800
    },
    {
      "epoch": 1.1329095063077381,
      "grad_norm": 0.09375,
      "learning_rate": 0.000709371212873746,
      "loss": 0.6144,
      "step": 22810
    },
    {
      "epoch": 1.1334061786033576,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007093314790900964,
      "loss": 0.6395,
      "step": 22820
    },
    {
      "epoch": 1.1339028508989768,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0007092917453064468,
      "loss": 0.6231,
      "step": 22830
    },
    {
      "epoch": 1.1343995231945962,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0007092520115227973,
      "loss": 0.6377,
      "step": 22840
    },
    {
      "epoch": 1.1348961954902155,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0007092122777391477,
      "loss": 0.6589,
      "step": 22850
    },
    {
      "epoch": 1.135392867785835,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007091725439554983,
      "loss": 0.6392,
      "step": 22860
    },
    {
      "epoch": 1.1358895400814544,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007091328101718487,
      "loss": 0.6901,
      "step": 22870
    },
    {
      "epoch": 1.1363862123770736,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007090930763881991,
      "loss": 0.6257,
      "step": 22880
    },
    {
      "epoch": 1.136882884672693,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007090533426045496,
      "loss": 0.609,
      "step": 22890
    },
    {
      "epoch": 1.1373795569683123,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0007090136088208999,
      "loss": 0.6255,
      "step": 22900
    },
    {
      "epoch": 1.1378762292639317,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007089738750372505,
      "loss": 0.6209,
      "step": 22910
    },
    {
      "epoch": 1.138372901559551,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.000708934141253601,
      "loss": 0.6024,
      "step": 22920
    },
    {
      "epoch": 1.1388695738551704,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007088944074699513,
      "loss": 0.6234,
      "step": 22930
    },
    {
      "epoch": 1.1393662461507896,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0007088546736863018,
      "loss": 0.635,
      "step": 22940
    },
    {
      "epoch": 1.139862918446409,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007088149399026523,
      "loss": 0.6387,
      "step": 22950
    },
    {
      "epoch": 1.1403595907420283,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0007087752061190026,
      "loss": 0.6197,
      "step": 22960
    },
    {
      "epoch": 1.1408562630376478,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0007087354723353532,
      "loss": 0.6047,
      "step": 22970
    },
    {
      "epoch": 1.1413529353332672,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007086957385517036,
      "loss": 0.6384,
      "step": 22980
    },
    {
      "epoch": 1.1418496076288864,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0007086560047680541,
      "loss": 0.6246,
      "step": 22990
    },
    {
      "epoch": 1.1423462799245059,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007086162709844045,
      "loss": 0.6167,
      "step": 23000
    },
    {
      "epoch": 1.142842952220125,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.000708576537200755,
      "loss": 0.6267,
      "step": 23010
    },
    {
      "epoch": 1.1433396245157446,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0007085368034171055,
      "loss": 0.628,
      "step": 23020
    },
    {
      "epoch": 1.1438362968113638,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007084970696334559,
      "loss": 0.6131,
      "step": 23030
    },
    {
      "epoch": 1.1443329691069832,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007084573358498063,
      "loss": 0.6425,
      "step": 23040
    },
    {
      "epoch": 1.1448296414026027,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007084176020661568,
      "loss": 0.6234,
      "step": 23050
    },
    {
      "epoch": 1.145326313698222,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007083778682825073,
      "loss": 0.6404,
      "step": 23060
    },
    {
      "epoch": 1.1458229859938414,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0007083381344988577,
      "loss": 0.617,
      "step": 23070
    },
    {
      "epoch": 1.1463196582894606,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007082984007152082,
      "loss": 0.5922,
      "step": 23080
    },
    {
      "epoch": 1.14681633058508,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0007082586669315585,
      "loss": 0.618,
      "step": 23090
    },
    {
      "epoch": 1.1473130028806993,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.000708218933147909,
      "loss": 0.613,
      "step": 23100
    },
    {
      "epoch": 1.1478096751763187,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0007081791993642596,
      "loss": 0.6369,
      "step": 23110
    },
    {
      "epoch": 1.148306347471938,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0007081394655806099,
      "loss": 0.6305,
      "step": 23120
    },
    {
      "epoch": 1.1488030197675574,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007080997317969604,
      "loss": 0.6211,
      "step": 23130
    },
    {
      "epoch": 1.1492996920631766,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007080599980133109,
      "loss": 0.6008,
      "step": 23140
    },
    {
      "epoch": 1.149796364358796,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007080202642296613,
      "loss": 0.6009,
      "step": 23150
    },
    {
      "epoch": 1.1502930366544155,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007079805304460117,
      "loss": 0.6652,
      "step": 23160
    },
    {
      "epoch": 1.1507897089500347,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007079407966623622,
      "loss": 0.6498,
      "step": 23170
    },
    {
      "epoch": 1.1512863812456542,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0007079010628787127,
      "loss": 0.6265,
      "step": 23180
    },
    {
      "epoch": 1.1517830535412734,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007078613290950631,
      "loss": 0.6222,
      "step": 23190
    },
    {
      "epoch": 1.1522797258368929,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0007078215953114135,
      "loss": 0.6105,
      "step": 23200
    },
    {
      "epoch": 1.152776398132512,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.000707781861527764,
      "loss": 0.6407,
      "step": 23210
    },
    {
      "epoch": 1.1532730704281315,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007077421277441145,
      "loss": 0.6244,
      "step": 23220
    },
    {
      "epoch": 1.153769742723751,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0007077023939604649,
      "loss": 0.6351,
      "step": 23230
    },
    {
      "epoch": 1.1542664150193702,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007076626601768154,
      "loss": 0.6386,
      "step": 23240
    },
    {
      "epoch": 1.1547630873149897,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007076229263931658,
      "loss": 0.639,
      "step": 23250
    },
    {
      "epoch": 1.155259759610609,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0007075831926095162,
      "loss": 0.6513,
      "step": 23260
    },
    {
      "epoch": 1.1557564319062283,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0007075434588258668,
      "loss": 0.6354,
      "step": 23270
    },
    {
      "epoch": 1.1562531042018476,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007075037250422172,
      "loss": 0.6214,
      "step": 23280
    },
    {
      "epoch": 1.156749776497467,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007074639912585676,
      "loss": 0.6353,
      "step": 23290
    },
    {
      "epoch": 1.1572464487930862,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0007074242574749181,
      "loss": 0.6349,
      "step": 23300
    },
    {
      "epoch": 1.1577431210887057,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007073845236912685,
      "loss": 0.6332,
      "step": 23310
    },
    {
      "epoch": 1.158239793384325,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.000707344789907619,
      "loss": 0.6123,
      "step": 23320
    },
    {
      "epoch": 1.1587364656799444,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0007073050561239695,
      "loss": 0.6024,
      "step": 23330
    },
    {
      "epoch": 1.1592331379755638,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007072653223403199,
      "loss": 0.6049,
      "step": 23340
    },
    {
      "epoch": 1.159729810271183,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007072255885566703,
      "loss": 0.6323,
      "step": 23350
    },
    {
      "epoch": 1.1602264825668025,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007071858547730207,
      "loss": 0.643,
      "step": 23360
    },
    {
      "epoch": 1.1607231548624217,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0007071461209893713,
      "loss": 0.6096,
      "step": 23370
    },
    {
      "epoch": 1.1612198271580412,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007071063872057217,
      "loss": 0.6407,
      "step": 23380
    },
    {
      "epoch": 1.1617164994536604,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007070666534220721,
      "loss": 0.5905,
      "step": 23390
    },
    {
      "epoch": 1.1622131717492798,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007070269196384226,
      "loss": 0.5927,
      "step": 23400
    },
    {
      "epoch": 1.1627098440448993,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.000706987185854773,
      "loss": 0.6414,
      "step": 23410
    },
    {
      "epoch": 1.1632065163405185,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0007069474520711235,
      "loss": 0.6149,
      "step": 23420
    },
    {
      "epoch": 1.1637031886361378,
      "grad_norm": 0.10546875,
      "learning_rate": 0.000706907718287474,
      "loss": 0.6216,
      "step": 23430
    },
    {
      "epoch": 1.1641998609317572,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007068679845038244,
      "loss": 0.6228,
      "step": 23440
    },
    {
      "epoch": 1.1646965332273767,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0007068282507201748,
      "loss": 0.6317,
      "step": 23450
    },
    {
      "epoch": 1.1651932055229959,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007067885169365253,
      "loss": 0.6172,
      "step": 23460
    },
    {
      "epoch": 1.1656898778186153,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007067487831528758,
      "loss": 0.6362,
      "step": 23470
    },
    {
      "epoch": 1.1661865501142346,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007067090493692262,
      "loss": 0.6011,
      "step": 23480
    },
    {
      "epoch": 1.166683222409854,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0007066693155855767,
      "loss": 0.6261,
      "step": 23490
    },
    {
      "epoch": 1.1671798947054732,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0007066295818019271,
      "loss": 0.6458,
      "step": 23500
    },
    {
      "epoch": 1.1676765670010927,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0007065898480182775,
      "loss": 0.6441,
      "step": 23510
    },
    {
      "epoch": 1.1681732392967121,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0007065501142346281,
      "loss": 0.602,
      "step": 23520
    },
    {
      "epoch": 1.1686699115923314,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007065103804509785,
      "loss": 0.6454,
      "step": 23530
    },
    {
      "epoch": 1.1691665838879508,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007064706466673289,
      "loss": 0.6184,
      "step": 23540
    },
    {
      "epoch": 1.16966325618357,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0007064309128836794,
      "loss": 0.6447,
      "step": 23550
    },
    {
      "epoch": 1.1701599284791895,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0007063911791000298,
      "loss": 0.6074,
      "step": 23560
    },
    {
      "epoch": 1.1706566007748087,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0007063514453163803,
      "loss": 0.6108,
      "step": 23570
    },
    {
      "epoch": 1.1711532730704282,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0007063117115327307,
      "loss": 0.6396,
      "step": 23580
    },
    {
      "epoch": 1.1716499453660474,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007062719777490812,
      "loss": 0.6014,
      "step": 23590
    },
    {
      "epoch": 1.1721466176616668,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0007062322439654317,
      "loss": 0.6143,
      "step": 23600
    },
    {
      "epoch": 1.172643289957286,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.000706192510181782,
      "loss": 0.5961,
      "step": 23610
    },
    {
      "epoch": 1.1731399622529055,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0007061527763981326,
      "loss": 0.6356,
      "step": 23620
    },
    {
      "epoch": 1.173636634548525,
      "grad_norm": 0.130859375,
      "learning_rate": 0.000706113042614483,
      "loss": 0.6159,
      "step": 23630
    },
    {
      "epoch": 1.1741333068441442,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007060733088308334,
      "loss": 0.6085,
      "step": 23640
    },
    {
      "epoch": 1.1746299791397636,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007060335750471839,
      "loss": 0.5906,
      "step": 23650
    },
    {
      "epoch": 1.1751266514353829,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0007059938412635343,
      "loss": 0.6355,
      "step": 23660
    },
    {
      "epoch": 1.1756233237310023,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0007059541074798848,
      "loss": 0.6162,
      "step": 23670
    },
    {
      "epoch": 1.1761199960266215,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0007059143736962353,
      "loss": 0.616,
      "step": 23680
    },
    {
      "epoch": 1.176616668322241,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0007058746399125857,
      "loss": 0.5947,
      "step": 23690
    },
    {
      "epoch": 1.1771133406178604,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0007058349061289361,
      "loss": 0.6463,
      "step": 23700
    },
    {
      "epoch": 1.1776100129134797,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0007057951723452866,
      "loss": 0.6078,
      "step": 23710
    },
    {
      "epoch": 1.1781066852090991,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0007057554385616371,
      "loss": 0.6306,
      "step": 23720
    },
    {
      "epoch": 1.1786033575047183,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0007057157047779875,
      "loss": 0.6252,
      "step": 23730
    },
    {
      "epoch": 1.1791000298003378,
      "grad_norm": 0.11328125,
      "learning_rate": 0.000705675970994338,
      "loss": 0.6268,
      "step": 23740
    },
    {
      "epoch": 1.179596702095957,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007056362372106884,
      "loss": 0.6547,
      "step": 23750
    },
    {
      "epoch": 1.1800933743915765,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007055965034270389,
      "loss": 0.5791,
      "step": 23760
    },
    {
      "epoch": 1.1805900466871957,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0007055567696433893,
      "loss": 0.6184,
      "step": 23770
    },
    {
      "epoch": 1.1810867189828151,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007055170358597398,
      "loss": 0.6027,
      "step": 23780
    },
    {
      "epoch": 1.1815833912784344,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007054773020760903,
      "loss": 0.6148,
      "step": 23790
    },
    {
      "epoch": 1.1820800635740538,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0007054375682924406,
      "loss": 0.6185,
      "step": 23800
    },
    {
      "epoch": 1.1825767358696733,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007053978345087911,
      "loss": 0.6371,
      "step": 23810
    },
    {
      "epoch": 1.1830734081652925,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0007053581007251417,
      "loss": 0.6398,
      "step": 23820
    },
    {
      "epoch": 1.183570080460912,
      "grad_norm": 0.1171875,
      "learning_rate": 0.000705318366941492,
      "loss": 0.6341,
      "step": 23830
    },
    {
      "epoch": 1.1840667527565312,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0007052786331578425,
      "loss": 0.6218,
      "step": 23840
    },
    {
      "epoch": 1.1845634250521506,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007052388993741929,
      "loss": 0.6058,
      "step": 23850
    },
    {
      "epoch": 1.1850600973477698,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007051991655905433,
      "loss": 0.6475,
      "step": 23860
    },
    {
      "epoch": 1.1855567696433893,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007051594318068939,
      "loss": 0.6322,
      "step": 23870
    },
    {
      "epoch": 1.1860534419390087,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0007051196980232443,
      "loss": 0.5993,
      "step": 23880
    },
    {
      "epoch": 1.186550114234628,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007050799642395948,
      "loss": 0.6268,
      "step": 23890
    },
    {
      "epoch": 1.1870467865302474,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0007050402304559452,
      "loss": 0.5902,
      "step": 23900
    },
    {
      "epoch": 1.1875434588258666,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0007050004966722956,
      "loss": 0.6241,
      "step": 23910
    },
    {
      "epoch": 1.188040131121486,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0007049607628886462,
      "loss": 0.6016,
      "step": 23920
    },
    {
      "epoch": 1.1885368034171053,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0007049210291049966,
      "loss": 0.6004,
      "step": 23930
    },
    {
      "epoch": 1.1890334757127248,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.000704881295321347,
      "loss": 0.6316,
      "step": 23940
    },
    {
      "epoch": 1.189530148008344,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007048415615376975,
      "loss": 0.6467,
      "step": 23950
    },
    {
      "epoch": 1.1900268203039635,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007048018277540478,
      "loss": 0.6248,
      "step": 23960
    },
    {
      "epoch": 1.1905234925995827,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007047620939703984,
      "loss": 0.6385,
      "step": 23970
    },
    {
      "epoch": 1.1910201648952021,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0007047223601867489,
      "loss": 0.6219,
      "step": 23980
    },
    {
      "epoch": 1.1915168371908216,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0007046826264030992,
      "loss": 0.6193,
      "step": 23990
    },
    {
      "epoch": 1.1920135094864408,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007046428926194497,
      "loss": 0.6297,
      "step": 24000
    },
    {
      "epoch": 1.1925101817820603,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0007046031588358002,
      "loss": 0.6158,
      "step": 24010
    },
    {
      "epoch": 1.1930068540776795,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007045634250521506,
      "loss": 0.6023,
      "step": 24020
    },
    {
      "epoch": 1.193503526373299,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0007045236912685011,
      "loss": 0.6306,
      "step": 24030
    },
    {
      "epoch": 1.1940001986689182,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0007044839574848515,
      "loss": 0.6125,
      "step": 24040
    },
    {
      "epoch": 1.1944968709645376,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.000704444223701202,
      "loss": 0.5975,
      "step": 24050
    },
    {
      "epoch": 1.194993543260157,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007044044899175524,
      "loss": 0.6436,
      "step": 24060
    },
    {
      "epoch": 1.1954902155557763,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007043647561339029,
      "loss": 0.6371,
      "step": 24070
    },
    {
      "epoch": 1.1959868878513957,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007043250223502534,
      "loss": 0.6063,
      "step": 24080
    },
    {
      "epoch": 1.196483560147015,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0007042852885666038,
      "loss": 0.6436,
      "step": 24090
    },
    {
      "epoch": 1.1969802324426344,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0007042455547829542,
      "loss": 0.6478,
      "step": 24100
    },
    {
      "epoch": 1.1974769047382536,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0007042058209993047,
      "loss": 0.6237,
      "step": 24110
    },
    {
      "epoch": 1.197973577033873,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0007041660872156552,
      "loss": 0.5966,
      "step": 24120
    },
    {
      "epoch": 1.1984702493294923,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0007041263534320056,
      "loss": 0.6514,
      "step": 24130
    },
    {
      "epoch": 1.1989669216251118,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0007040866196483561,
      "loss": 0.6267,
      "step": 24140
    },
    {
      "epoch": 1.199463593920731,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007040468858647065,
      "loss": 0.6382,
      "step": 24150
    },
    {
      "epoch": 1.1999602662163504,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007040071520810569,
      "loss": 0.6262,
      "step": 24160
    },
    {
      "epoch": 1.2004569385119699,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0007039674182974075,
      "loss": 0.6151,
      "step": 24170
    },
    {
      "epoch": 1.2009536108075891,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007039276845137578,
      "loss": 0.6319,
      "step": 24180
    },
    {
      "epoch": 1.2014502831032086,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0007038879507301083,
      "loss": 0.6521,
      "step": 24190
    },
    {
      "epoch": 1.2019469553988278,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0007038482169464588,
      "loss": 0.5974,
      "step": 24200
    },
    {
      "epoch": 1.2024436276944472,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0007038084831628092,
      "loss": 0.655,
      "step": 24210
    },
    {
      "epoch": 1.2029402999900665,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0007037687493791597,
      "loss": 0.6258,
      "step": 24220
    },
    {
      "epoch": 1.203436972285686,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0007037290155955101,
      "loss": 0.6048,
      "step": 24230
    },
    {
      "epoch": 1.2039336445813054,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0007036892818118606,
      "loss": 0.6375,
      "step": 24240
    },
    {
      "epoch": 1.2044303168769246,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.000703649548028211,
      "loss": 0.6155,
      "step": 24250
    },
    {
      "epoch": 1.204926989172544,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007036098142445614,
      "loss": 0.595,
      "step": 24260
    },
    {
      "epoch": 1.2054236614681633,
      "grad_norm": 0.099609375,
      "learning_rate": 0.000703570080460912,
      "loss": 0.605,
      "step": 24270
    },
    {
      "epoch": 1.2059203337637827,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0007035303466772624,
      "loss": 0.6043,
      "step": 24280
    },
    {
      "epoch": 1.206417006059402,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0007034906128936128,
      "loss": 0.6582,
      "step": 24290
    },
    {
      "epoch": 1.2069136783550214,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0007034508791099633,
      "loss": 0.6373,
      "step": 24300
    },
    {
      "epoch": 1.2074103506506406,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0007034111453263137,
      "loss": 0.6126,
      "step": 24310
    },
    {
      "epoch": 1.20790702294626,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007033714115426641,
      "loss": 0.6255,
      "step": 24320
    },
    {
      "epoch": 1.2084036952418793,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007033316777590147,
      "loss": 0.6219,
      "step": 24330
    },
    {
      "epoch": 1.2089003675374987,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0007032919439753651,
      "loss": 0.6258,
      "step": 24340
    },
    {
      "epoch": 1.2093970398331182,
      "grad_norm": 0.087890625,
      "learning_rate": 0.0007032522101917155,
      "loss": 0.6137,
      "step": 24350
    },
    {
      "epoch": 1.2098937121287374,
      "grad_norm": 0.1328125,
      "learning_rate": 0.000703212476408066,
      "loss": 0.5958,
      "step": 24360
    },
    {
      "epoch": 1.2103903844243569,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007031727426244165,
      "loss": 0.6078,
      "step": 24370
    },
    {
      "epoch": 1.210887056719976,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007031330088407669,
      "loss": 0.6212,
      "step": 24380
    },
    {
      "epoch": 1.2113837290155955,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0007030932750571174,
      "loss": 0.5888,
      "step": 24390
    },
    {
      "epoch": 1.2118804013112148,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007030535412734678,
      "loss": 0.611,
      "step": 24400
    },
    {
      "epoch": 1.2123770736068342,
      "grad_norm": 0.109375,
      "learning_rate": 0.0007030138074898182,
      "loss": 0.5952,
      "step": 24410
    },
    {
      "epoch": 1.2128737459024537,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007029740737061688,
      "loss": 0.6439,
      "step": 24420
    },
    {
      "epoch": 1.213370418198073,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0007029343399225192,
      "loss": 0.6053,
      "step": 24430
    },
    {
      "epoch": 1.2138670904936923,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0007028946061388696,
      "loss": 0.6181,
      "step": 24440
    },
    {
      "epoch": 1.2143637627893116,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.00070285487235522,
      "loss": 0.6271,
      "step": 24450
    },
    {
      "epoch": 1.214860435084931,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0007028151385715705,
      "loss": 0.6332,
      "step": 24460
    },
    {
      "epoch": 1.2153571073805503,
      "grad_norm": 0.14453125,
      "learning_rate": 0.000702775404787921,
      "loss": 0.6302,
      "step": 24470
    },
    {
      "epoch": 1.2158537796761697,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007027356710042714,
      "loss": 0.5947,
      "step": 24480
    },
    {
      "epoch": 1.216350451971789,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0007026959372206219,
      "loss": 0.645,
      "step": 24490
    },
    {
      "epoch": 1.2168471242674084,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007026562034369723,
      "loss": 0.6371,
      "step": 24500
    },
    {
      "epoch": 1.2173437965630276,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0007026164696533227,
      "loss": 0.6097,
      "step": 24510
    },
    {
      "epoch": 1.217840468858647,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0007025767358696733,
      "loss": 0.6174,
      "step": 24520
    },
    {
      "epoch": 1.2183371411542665,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0007025370020860237,
      "loss": 0.6005,
      "step": 24530
    },
    {
      "epoch": 1.2188338134498857,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007024972683023741,
      "loss": 0.59,
      "step": 24540
    },
    {
      "epoch": 1.2193304857455052,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0007024575345187246,
      "loss": 0.6203,
      "step": 24550
    },
    {
      "epoch": 1.2198271580411244,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.000702417800735075,
      "loss": 0.6041,
      "step": 24560
    },
    {
      "epoch": 1.2203238303367439,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0007023780669514254,
      "loss": 0.6207,
      "step": 24570
    },
    {
      "epoch": 1.220820502632363,
      "grad_norm": 0.09765625,
      "learning_rate": 0.000702338333167776,
      "loss": 0.6145,
      "step": 24580
    },
    {
      "epoch": 1.2213171749279825,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007022985993841264,
      "loss": 0.6016,
      "step": 24590
    },
    {
      "epoch": 1.221813847223602,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0007022588656004768,
      "loss": 0.615,
      "step": 24600
    },
    {
      "epoch": 1.2223105195192212,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007022191318168273,
      "loss": 0.6351,
      "step": 24610
    },
    {
      "epoch": 1.2228071918148407,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0007021793980331777,
      "loss": 0.6276,
      "step": 24620
    },
    {
      "epoch": 1.2233038641104599,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0007021396642495282,
      "loss": 0.6095,
      "step": 24630
    },
    {
      "epoch": 1.2238005364060793,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0007020999304658786,
      "loss": 0.6215,
      "step": 24640
    },
    {
      "epoch": 1.2242972087016986,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0007020601966822291,
      "loss": 0.5976,
      "step": 24650
    },
    {
      "epoch": 1.224793880997318,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0007020204628985796,
      "loss": 0.5812,
      "step": 24660
    },
    {
      "epoch": 1.2252905532929372,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0007019807291149299,
      "loss": 0.6122,
      "step": 24670
    },
    {
      "epoch": 1.2257872255885567,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007019409953312805,
      "loss": 0.6131,
      "step": 24680
    },
    {
      "epoch": 1.226283897884176,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.000701901261547631,
      "loss": 0.6229,
      "step": 24690
    },
    {
      "epoch": 1.2267805701797954,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0007018615277639813,
      "loss": 0.594,
      "step": 24700
    },
    {
      "epoch": 1.2272772424754148,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0007018217939803318,
      "loss": 0.5905,
      "step": 24710
    },
    {
      "epoch": 1.227773914771034,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0007017820601966822,
      "loss": 0.6067,
      "step": 24720
    },
    {
      "epoch": 1.2282705870666535,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007017423264130327,
      "loss": 0.6426,
      "step": 24730
    },
    {
      "epoch": 1.2287672593622727,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007017025926293832,
      "loss": 0.6224,
      "step": 24740
    },
    {
      "epoch": 1.2292639316578922,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0007016628588457336,
      "loss": 0.6083,
      "step": 24750
    },
    {
      "epoch": 1.2297606039535114,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.000701623125062084,
      "loss": 0.6234,
      "step": 24760
    },
    {
      "epoch": 1.2302572762491308,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0007015833912784345,
      "loss": 0.6315,
      "step": 24770
    },
    {
      "epoch": 1.2307539485447503,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.000701543657494785,
      "loss": 0.6274,
      "step": 24780
    },
    {
      "epoch": 1.2312506208403695,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0007015039237111355,
      "loss": 0.6201,
      "step": 24790
    },
    {
      "epoch": 1.231747293135989,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0007014641899274859,
      "loss": 0.6321,
      "step": 24800
    },
    {
      "epoch": 1.2322439654316082,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0007014244561438363,
      "loss": 0.6348,
      "step": 24810
    },
    {
      "epoch": 1.2327406377272276,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0007013847223601868,
      "loss": 0.5963,
      "step": 24820
    },
    {
      "epoch": 1.2332373100228469,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007013449885765372,
      "loss": 0.6164,
      "step": 24830
    },
    {
      "epoch": 1.2337339823184663,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007013052547928877,
      "loss": 0.6486,
      "step": 24840
    },
    {
      "epoch": 1.2342306546140855,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0007012655210092382,
      "loss": 0.6338,
      "step": 24850
    },
    {
      "epoch": 1.234727326909705,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0007012257872255885,
      "loss": 0.6248,
      "step": 24860
    },
    {
      "epoch": 1.2352239992053242,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.000701186053441939,
      "loss": 0.622,
      "step": 24870
    },
    {
      "epoch": 1.2357206715009437,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0007011463196582896,
      "loss": 0.5822,
      "step": 24880
    },
    {
      "epoch": 1.2362173437965631,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0007011065858746399,
      "loss": 0.61,
      "step": 24890
    },
    {
      "epoch": 1.2367140160921823,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007010668520909904,
      "loss": 0.6277,
      "step": 24900
    },
    {
      "epoch": 1.2372106883878018,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0007010271183073408,
      "loss": 0.6312,
      "step": 24910
    },
    {
      "epoch": 1.237707360683421,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0007009873845236912,
      "loss": 0.5847,
      "step": 24920
    },
    {
      "epoch": 1.2382040329790405,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0007009476507400418,
      "loss": 0.6328,
      "step": 24930
    },
    {
      "epoch": 1.2387007052746597,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0007009079169563922,
      "loss": 0.6421,
      "step": 24940
    },
    {
      "epoch": 1.2391973775702791,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0007008681831727427,
      "loss": 0.6063,
      "step": 24950
    },
    {
      "epoch": 1.2396940498658986,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0007008284493890931,
      "loss": 0.6355,
      "step": 24960
    },
    {
      "epoch": 1.2401907221615178,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0007007887156054435,
      "loss": 0.6116,
      "step": 24970
    },
    {
      "epoch": 1.2406873944571373,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0007007489818217941,
      "loss": 0.6389,
      "step": 24980
    },
    {
      "epoch": 1.2411840667527565,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0007007092480381445,
      "loss": 0.641,
      "step": 24990
    },
    {
      "epoch": 1.241680739048376,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0007006695142544949,
      "loss": 0.6491,
      "step": 25000
    },
    {
      "epoch": 1.2421774113439952,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007006297804708454,
      "loss": 0.6464,
      "step": 25010
    },
    {
      "epoch": 1.2426740836396146,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0007005900466871958,
      "loss": 0.6064,
      "step": 25020
    },
    {
      "epoch": 1.2431707559352339,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0007005503129035463,
      "loss": 0.6449,
      "step": 25030
    },
    {
      "epoch": 1.2436674282308533,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0007005105791198968,
      "loss": 0.6289,
      "step": 25040
    },
    {
      "epoch": 1.2441641005264725,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0007004708453362471,
      "loss": 0.6168,
      "step": 25050
    },
    {
      "epoch": 1.244660772822092,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0007004311115525976,
      "loss": 0.6012,
      "step": 25060
    },
    {
      "epoch": 1.2451574451177114,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0007003913777689481,
      "loss": 0.6305,
      "step": 25070
    },
    {
      "epoch": 1.2456541174133307,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.0007003516439852986,
      "loss": 0.6238,
      "step": 25080
    },
    {
      "epoch": 1.24615078970895,
      "grad_norm": 0.08740234375,
      "learning_rate": 0.000700311910201649,
      "loss": 0.6106,
      "step": 25090
    },
    {
      "epoch": 1.2466474620045693,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0007002721764179994,
      "loss": 0.6166,
      "step": 25100
    },
    {
      "epoch": 1.2471441343001888,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0007002324426343499,
      "loss": 0.6587,
      "step": 25110
    },
    {
      "epoch": 1.247640806595808,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0007001927088507003,
      "loss": 0.632,
      "step": 25120
    },
    {
      "epoch": 1.2481374788914275,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0007001529750670508,
      "loss": 0.6218,
      "step": 25130
    },
    {
      "epoch": 1.248634151187047,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.0007001132412834013,
      "loss": 0.605,
      "step": 25140
    },
    {
      "epoch": 1.2491308234826661,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0007000735074997517,
      "loss": 0.6058,
      "step": 25150
    },
    {
      "epoch": 1.2496274957782856,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0007000337737161021,
      "loss": 0.6327,
      "step": 25160
    },
    {
      "epoch": 1.2501241680739048,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006999940399324526,
      "loss": 0.6189,
      "step": 25170
    },
    {
      "epoch": 1.2506208403695243,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0006999543061488031,
      "loss": 0.6172,
      "step": 25180
    },
    {
      "epoch": 1.2511175126651435,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006999145723651535,
      "loss": 0.6432,
      "step": 25190
    },
    {
      "epoch": 1.251614184960763,
      "grad_norm": 0.109375,
      "learning_rate": 0.000699874838581504,
      "loss": 0.6251,
      "step": 25200
    },
    {
      "epoch": 1.2521108572563822,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006998351047978544,
      "loss": 0.6038,
      "step": 25210
    },
    {
      "epoch": 1.2526075295520016,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006997953710142048,
      "loss": 0.6242,
      "step": 25220
    },
    {
      "epoch": 1.2531042018476208,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006997556372305554,
      "loss": 0.612,
      "step": 25230
    },
    {
      "epoch": 1.2536008741432403,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006997159034469058,
      "loss": 0.6356,
      "step": 25240
    },
    {
      "epoch": 1.2540975464388597,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006996761696632562,
      "loss": 0.5935,
      "step": 25250
    },
    {
      "epoch": 1.254594218734479,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006996364358796067,
      "loss": 0.5989,
      "step": 25260
    },
    {
      "epoch": 1.2550908910300984,
      "grad_norm": 0.125,
      "learning_rate": 0.0006995967020959571,
      "loss": 0.615,
      "step": 25270
    },
    {
      "epoch": 1.2555875633257176,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006995569683123076,
      "loss": 0.634,
      "step": 25280
    },
    {
      "epoch": 1.256084235621337,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006995172345286581,
      "loss": 0.6228,
      "step": 25290
    },
    {
      "epoch": 1.2565809079169563,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006994775007450085,
      "loss": 0.6097,
      "step": 25300
    },
    {
      "epoch": 1.2570775802125758,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006994377669613589,
      "loss": 0.6059,
      "step": 25310
    },
    {
      "epoch": 1.2575742525081952,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006993980331777093,
      "loss": 0.6045,
      "step": 25320
    },
    {
      "epoch": 1.2580709248038144,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006993582993940599,
      "loss": 0.6311,
      "step": 25330
    },
    {
      "epoch": 1.2585675970994337,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006993185656104103,
      "loss": 0.5906,
      "step": 25340
    },
    {
      "epoch": 1.2590642693950531,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0006992788318267607,
      "loss": 0.6082,
      "step": 25350
    },
    {
      "epoch": 1.2595609416906726,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006992390980431112,
      "loss": 0.5942,
      "step": 25360
    },
    {
      "epoch": 1.2600576139862918,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006991993642594616,
      "loss": 0.606,
      "step": 25370
    },
    {
      "epoch": 1.2605542862819112,
      "grad_norm": 0.11328125,
      "learning_rate": 0.000699159630475812,
      "loss": 0.6422,
      "step": 25380
    },
    {
      "epoch": 1.2610509585775305,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006991198966921626,
      "loss": 0.6,
      "step": 25390
    },
    {
      "epoch": 1.26154763087315,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.000699080162908513,
      "loss": 0.6161,
      "step": 25400
    },
    {
      "epoch": 1.2620443031687691,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006990404291248634,
      "loss": 0.5868,
      "step": 25410
    },
    {
      "epoch": 1.2625409754643886,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006990006953412139,
      "loss": 0.5998,
      "step": 25420
    },
    {
      "epoch": 1.263037647760008,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006989609615575644,
      "loss": 0.5932,
      "step": 25430
    },
    {
      "epoch": 1.2635343200556273,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006989212277739148,
      "loss": 0.6253,
      "step": 25440
    },
    {
      "epoch": 1.2640309923512467,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006988814939902653,
      "loss": 0.6573,
      "step": 25450
    },
    {
      "epoch": 1.264527664646866,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006988417602066157,
      "loss": 0.6146,
      "step": 25460
    },
    {
      "epoch": 1.2650243369424854,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0006988020264229661,
      "loss": 0.6223,
      "step": 25470
    },
    {
      "epoch": 1.2655210092381046,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006987622926393167,
      "loss": 0.6207,
      "step": 25480
    },
    {
      "epoch": 1.266017681533724,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006987225588556671,
      "loss": 0.6174,
      "step": 25490
    },
    {
      "epoch": 1.2665143538293435,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006986828250720175,
      "loss": 0.6209,
      "step": 25500
    },
    {
      "epoch": 1.2670110261249627,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006986430912883679,
      "loss": 0.6172,
      "step": 25510
    },
    {
      "epoch": 1.267507698420582,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006986033575047184,
      "loss": 0.61,
      "step": 25520
    },
    {
      "epoch": 1.2680043707162014,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.000698563623721069,
      "loss": 0.6227,
      "step": 25530
    },
    {
      "epoch": 1.2685010430118209,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006985238899374193,
      "loss": 0.6064,
      "step": 25540
    },
    {
      "epoch": 1.26899771530744,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006984841561537698,
      "loss": 0.6189,
      "step": 25550
    },
    {
      "epoch": 1.2694943876030595,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006984444223701202,
      "loss": 0.6138,
      "step": 25560
    },
    {
      "epoch": 1.2699910598986788,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0006984046885864706,
      "loss": 0.6371,
      "step": 25570
    },
    {
      "epoch": 1.2704877321942982,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006983649548028212,
      "loss": 0.6274,
      "step": 25580
    },
    {
      "epoch": 1.2709844044899175,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0006983252210191716,
      "loss": 0.613,
      "step": 25590
    },
    {
      "epoch": 1.271481076785537,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000698285487235522,
      "loss": 0.5777,
      "step": 25600
    },
    {
      "epoch": 1.2719777490811564,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006982457534518725,
      "loss": 0.6199,
      "step": 25610
    },
    {
      "epoch": 1.2724744213767756,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006982060196682229,
      "loss": 0.6128,
      "step": 25620
    },
    {
      "epoch": 1.272971093672395,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006981662858845733,
      "loss": 0.6039,
      "step": 25630
    },
    {
      "epoch": 1.2734677659680143,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006981265521009239,
      "loss": 0.5967,
      "step": 25640
    },
    {
      "epoch": 1.2739644382636337,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006980868183172743,
      "loss": 0.6332,
      "step": 25650
    },
    {
      "epoch": 1.274461110559253,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006980470845336247,
      "loss": 0.6355,
      "step": 25660
    },
    {
      "epoch": 1.2749577828548724,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006980073507499752,
      "loss": 0.6018,
      "step": 25670
    },
    {
      "epoch": 1.2754544551504918,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0006979676169663257,
      "loss": 0.618,
      "step": 25680
    },
    {
      "epoch": 1.275951127446111,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0006979278831826762,
      "loss": 0.609,
      "step": 25690
    },
    {
      "epoch": 1.2764477997417303,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006978881493990265,
      "loss": 0.631,
      "step": 25700
    },
    {
      "epoch": 1.2769444720373497,
      "grad_norm": 0.099609375,
      "learning_rate": 0.000697848415615377,
      "loss": 0.6446,
      "step": 25710
    },
    {
      "epoch": 1.2774411443329692,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006978086818317275,
      "loss": 0.6415,
      "step": 25720
    },
    {
      "epoch": 1.2779378166285884,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0006977689480480778,
      "loss": 0.6365,
      "step": 25730
    },
    {
      "epoch": 1.2784344889242079,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006977292142644284,
      "loss": 0.669,
      "step": 25740
    },
    {
      "epoch": 1.278931161219827,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0006976894804807789,
      "loss": 0.6098,
      "step": 25750
    },
    {
      "epoch": 1.2794278335154465,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006976497466971292,
      "loss": 0.6255,
      "step": 25760
    },
    {
      "epoch": 1.2799245058110658,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006976100129134797,
      "loss": 0.6222,
      "step": 25770
    },
    {
      "epoch": 1.2804211781066852,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006975702791298301,
      "loss": 0.6459,
      "step": 25780
    },
    {
      "epoch": 1.2809178504023047,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006975305453461806,
      "loss": 0.6226,
      "step": 25790
    },
    {
      "epoch": 1.2814145226979239,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0006974908115625311,
      "loss": 0.6342,
      "step": 25800
    },
    {
      "epoch": 1.2819111949935433,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0006974510777788815,
      "loss": 0.6535,
      "step": 25810
    },
    {
      "epoch": 1.2824078672891626,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006974113439952319,
      "loss": 0.6288,
      "step": 25820
    },
    {
      "epoch": 1.282904539584782,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0006973716102115825,
      "loss": 0.6131,
      "step": 25830
    },
    {
      "epoch": 1.2834012118804012,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006973318764279329,
      "loss": 0.6023,
      "step": 25840
    },
    {
      "epoch": 1.2838978841760207,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006972921426442834,
      "loss": 0.6053,
      "step": 25850
    },
    {
      "epoch": 1.2843945564716401,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0006972524088606338,
      "loss": 0.6479,
      "step": 25860
    },
    {
      "epoch": 1.2848912287672594,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006972126750769842,
      "loss": 0.6086,
      "step": 25870
    },
    {
      "epoch": 1.2853879010628786,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0006971729412933348,
      "loss": 0.6075,
      "step": 25880
    },
    {
      "epoch": 1.285884573358498,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006971332075096851,
      "loss": 0.616,
      "step": 25890
    },
    {
      "epoch": 1.2863812456541175,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006970934737260356,
      "loss": 0.6025,
      "step": 25900
    },
    {
      "epoch": 1.2868779179497367,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006970537399423861,
      "loss": 0.5992,
      "step": 25910
    },
    {
      "epoch": 1.2873745902453562,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006970140061587364,
      "loss": 0.6205,
      "step": 25920
    },
    {
      "epoch": 1.2878712625409754,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.000696974272375087,
      "loss": 0.6286,
      "step": 25930
    },
    {
      "epoch": 1.2883679348365948,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006969345385914375,
      "loss": 0.648,
      "step": 25940
    },
    {
      "epoch": 1.288864607132214,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006968948048077878,
      "loss": 0.6122,
      "step": 25950
    },
    {
      "epoch": 1.2893612794278335,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006968550710241383,
      "loss": 0.6291,
      "step": 25960
    },
    {
      "epoch": 1.289857951723453,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006968153372404887,
      "loss": 0.6159,
      "step": 25970
    },
    {
      "epoch": 1.2903546240190722,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006967756034568392,
      "loss": 0.6452,
      "step": 25980
    },
    {
      "epoch": 1.2908512963146916,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006967358696731897,
      "loss": 0.6365,
      "step": 25990
    },
    {
      "epoch": 1.2913479686103109,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006966961358895401,
      "loss": 0.6077,
      "step": 26000
    },
    {
      "epoch": 1.2918446409059303,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006966564021058906,
      "loss": 0.6097,
      "step": 26010
    },
    {
      "epoch": 1.2923413132015495,
      "grad_norm": 0.09765625,
      "learning_rate": 0.000696616668322241,
      "loss": 0.622,
      "step": 26020
    },
    {
      "epoch": 1.292837985497169,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006965769345385914,
      "loss": 0.5867,
      "step": 26030
    },
    {
      "epoch": 1.2933346577927884,
      "grad_norm": 0.142578125,
      "learning_rate": 0.000696537200754942,
      "loss": 0.6268,
      "step": 26040
    },
    {
      "epoch": 1.2938313300884077,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006964974669712924,
      "loss": 0.6172,
      "step": 26050
    },
    {
      "epoch": 1.294328002384027,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006964577331876428,
      "loss": 0.61,
      "step": 26060
    },
    {
      "epoch": 1.2948246746796463,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006964179994039933,
      "loss": 0.6454,
      "step": 26070
    },
    {
      "epoch": 1.2953213469752658,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006963782656203437,
      "loss": 0.6162,
      "step": 26080
    },
    {
      "epoch": 1.295818019270885,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006963385318366942,
      "loss": 0.6403,
      "step": 26090
    },
    {
      "epoch": 1.2963146915665045,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006962987980530447,
      "loss": 0.6284,
      "step": 26100
    },
    {
      "epoch": 1.2968113638621237,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.000696259064269395,
      "loss": 0.5865,
      "step": 26110
    },
    {
      "epoch": 1.2973080361577431,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006962193304857455,
      "loss": 0.5768,
      "step": 26120
    },
    {
      "epoch": 1.2978047084533624,
      "grad_norm": 0.142578125,
      "learning_rate": 0.000696179596702096,
      "loss": 0.6388,
      "step": 26130
    },
    {
      "epoch": 1.2983013807489818,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006961398629184465,
      "loss": 0.632,
      "step": 26140
    },
    {
      "epoch": 1.2987980530446013,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006961001291347969,
      "loss": 0.6346,
      "step": 26150
    },
    {
      "epoch": 1.2992947253402205,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0006960603953511473,
      "loss": 0.6329,
      "step": 26160
    },
    {
      "epoch": 1.29979139763584,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0006960206615674978,
      "loss": 0.6127,
      "step": 26170
    },
    {
      "epoch": 1.3002880699314592,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006959809277838482,
      "loss": 0.6357,
      "step": 26180
    },
    {
      "epoch": 1.3007847422270786,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006959411940001987,
      "loss": 0.6332,
      "step": 26190
    },
    {
      "epoch": 1.3012814145226979,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006959014602165492,
      "loss": 0.612,
      "step": 26200
    },
    {
      "epoch": 1.3017780868183173,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006958617264328996,
      "loss": 0.6465,
      "step": 26210
    },
    {
      "epoch": 1.3022747591139368,
      "grad_norm": 0.099609375,
      "learning_rate": 0.00069582199264925,
      "loss": 0.629,
      "step": 26220
    },
    {
      "epoch": 1.302771431409556,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006957822588656005,
      "loss": 0.5934,
      "step": 26230
    },
    {
      "epoch": 1.3032681037051752,
      "grad_norm": 0.099609375,
      "learning_rate": 0.000695742525081951,
      "loss": 0.6104,
      "step": 26240
    },
    {
      "epoch": 1.3037647760007947,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006957027912983014,
      "loss": 0.6124,
      "step": 26250
    },
    {
      "epoch": 1.304261448296414,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006956630575146519,
      "loss": 0.6126,
      "step": 26260
    },
    {
      "epoch": 1.3047581205920333,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006956233237310023,
      "loss": 0.5908,
      "step": 26270
    },
    {
      "epoch": 1.3052547928876528,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006955835899473527,
      "loss": 0.5986,
      "step": 26280
    },
    {
      "epoch": 1.305751465183272,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006955438561637033,
      "loss": 0.6358,
      "step": 26290
    },
    {
      "epoch": 1.3062481374788915,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006955041223800537,
      "loss": 0.6091,
      "step": 26300
    },
    {
      "epoch": 1.3067448097745107,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0006954643885964041,
      "loss": 0.6536,
      "step": 26310
    },
    {
      "epoch": 1.3072414820701301,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006954246548127546,
      "loss": 0.6112,
      "step": 26320
    },
    {
      "epoch": 1.3077381543657496,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.000695384921029105,
      "loss": 0.6137,
      "step": 26330
    },
    {
      "epoch": 1.3082348266613688,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006953451872454555,
      "loss": 0.6373,
      "step": 26340
    },
    {
      "epoch": 1.3087314989569883,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.000695305453461806,
      "loss": 0.6115,
      "step": 26350
    },
    {
      "epoch": 1.3092281712526075,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006952657196781564,
      "loss": 0.6095,
      "step": 26360
    },
    {
      "epoch": 1.309724843548227,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006952259858945068,
      "loss": 0.594,
      "step": 26370
    },
    {
      "epoch": 1.3102215158438462,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006951862521108572,
      "loss": 0.6177,
      "step": 26380
    },
    {
      "epoch": 1.3107181881394656,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0006951465183272078,
      "loss": 0.5909,
      "step": 26390
    },
    {
      "epoch": 1.311214860435085,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006951067845435582,
      "loss": 0.5882,
      "step": 26400
    },
    {
      "epoch": 1.3117115327307043,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0006950670507599086,
      "loss": 0.6251,
      "step": 26410
    },
    {
      "epoch": 1.3122082050263235,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006950273169762591,
      "loss": 0.6158,
      "step": 26420
    },
    {
      "epoch": 1.312704877321943,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006949875831926095,
      "loss": 0.636,
      "step": 26430
    },
    {
      "epoch": 1.3132015496175624,
      "grad_norm": 0.1015625,
      "learning_rate": 0.00069494784940896,
      "loss": 0.6297,
      "step": 26440
    },
    {
      "epoch": 1.3136982219131816,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0006949081156253105,
      "loss": 0.5981,
      "step": 26450
    },
    {
      "epoch": 1.314194894208801,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006948683818416609,
      "loss": 0.6133,
      "step": 26460
    },
    {
      "epoch": 1.3146915665044203,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006948286480580113,
      "loss": 0.6271,
      "step": 26470
    },
    {
      "epoch": 1.3151882388000398,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006947889142743618,
      "loss": 0.6233,
      "step": 26480
    },
    {
      "epoch": 1.315684911095659,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006947491804907123,
      "loss": 0.6188,
      "step": 26490
    },
    {
      "epoch": 1.3161815833912784,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006947094467070627,
      "loss": 0.588,
      "step": 26500
    },
    {
      "epoch": 1.316678255686898,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006946697129234132,
      "loss": 0.6201,
      "step": 26510
    },
    {
      "epoch": 1.3171749279825171,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0006946299791397636,
      "loss": 0.6294,
      "step": 26520
    },
    {
      "epoch": 1.3176716002781366,
      "grad_norm": 0.1171875,
      "learning_rate": 0.000694590245356114,
      "loss": 0.6203,
      "step": 26530
    },
    {
      "epoch": 1.3181682725737558,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006945505115724646,
      "loss": 0.6211,
      "step": 26540
    },
    {
      "epoch": 1.3186649448693752,
      "grad_norm": 0.125,
      "learning_rate": 0.000694510777788815,
      "loss": 0.6181,
      "step": 26550
    },
    {
      "epoch": 1.3191616171649945,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0006944710440051654,
      "loss": 0.6553,
      "step": 26560
    },
    {
      "epoch": 1.319658289460614,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006944313102215158,
      "loss": 0.5941,
      "step": 26570
    },
    {
      "epoch": 1.3201549617562334,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0006943915764378663,
      "loss": 0.6245,
      "step": 26580
    },
    {
      "epoch": 1.3206516340518526,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006943518426542169,
      "loss": 0.6374,
      "step": 26590
    },
    {
      "epoch": 1.3211483063474718,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0006943121088705672,
      "loss": 0.6443,
      "step": 26600
    },
    {
      "epoch": 1.3216449786430913,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0006942723750869177,
      "loss": 0.6219,
      "step": 26610
    },
    {
      "epoch": 1.3221416509387107,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006942326413032682,
      "loss": 0.6492,
      "step": 26620
    },
    {
      "epoch": 1.32263832323433,
      "grad_norm": 0.087890625,
      "learning_rate": 0.0006941929075196185,
      "loss": 0.6174,
      "step": 26630
    },
    {
      "epoch": 1.3231349955299494,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006941531737359691,
      "loss": 0.5641,
      "step": 26640
    },
    {
      "epoch": 1.3236316678255686,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006941134399523195,
      "loss": 0.6142,
      "step": 26650
    },
    {
      "epoch": 1.324128340121188,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006940737061686699,
      "loss": 0.6077,
      "step": 26660
    },
    {
      "epoch": 1.3246250124168073,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006940339723850204,
      "loss": 0.6305,
      "step": 26670
    },
    {
      "epoch": 1.3251216847124268,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006939942386013708,
      "loss": 0.6343,
      "step": 26680
    },
    {
      "epoch": 1.3256183570080462,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006939545048177213,
      "loss": 0.5751,
      "step": 26690
    },
    {
      "epoch": 1.3261150293036654,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006939147710340718,
      "loss": 0.6058,
      "step": 26700
    },
    {
      "epoch": 1.3266117015992847,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006938750372504222,
      "loss": 0.6087,
      "step": 26710
    },
    {
      "epoch": 1.327108373894904,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0006938353034667726,
      "loss": 0.6055,
      "step": 26720
    },
    {
      "epoch": 1.3276050461905236,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006937955696831231,
      "loss": 0.6121,
      "step": 26730
    },
    {
      "epoch": 1.3281017184861428,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006937558358994736,
      "loss": 0.5855,
      "step": 26740
    },
    {
      "epoch": 1.3285983907817622,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0006937161021158241,
      "loss": 0.5932,
      "step": 26750
    },
    {
      "epoch": 1.3290950630773817,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006936763683321744,
      "loss": 0.6314,
      "step": 26760
    },
    {
      "epoch": 1.329591735373001,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006936366345485249,
      "loss": 0.6129,
      "step": 26770
    },
    {
      "epoch": 1.3300884076686201,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006935969007648754,
      "loss": 0.5807,
      "step": 26780
    },
    {
      "epoch": 1.3305850799642396,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006935571669812257,
      "loss": 0.5593,
      "step": 26790
    },
    {
      "epoch": 1.331081752259859,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006935174331975763,
      "loss": 0.6105,
      "step": 26800
    },
    {
      "epoch": 1.3315784245554783,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0006934776994139268,
      "loss": 0.589,
      "step": 26810
    },
    {
      "epoch": 1.3320750968510977,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006934379656302771,
      "loss": 0.6002,
      "step": 26820
    },
    {
      "epoch": 1.332571769146717,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006933982318466276,
      "loss": 0.5998,
      "step": 26830
    },
    {
      "epoch": 1.3330684414423364,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.000693358498062978,
      "loss": 0.6258,
      "step": 26840
    },
    {
      "epoch": 1.3335651137379556,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006933187642793285,
      "loss": 0.628,
      "step": 26850
    },
    {
      "epoch": 1.334061786033575,
      "grad_norm": 0.15625,
      "learning_rate": 0.000693279030495679,
      "loss": 0.6142,
      "step": 26860
    },
    {
      "epoch": 1.3345584583291945,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006932392967120294,
      "loss": 0.6212,
      "step": 26870
    },
    {
      "epoch": 1.3350551306248137,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006931995629283799,
      "loss": 0.6142,
      "step": 26880
    },
    {
      "epoch": 1.335551802920433,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0006931598291447304,
      "loss": 0.6429,
      "step": 26890
    },
    {
      "epoch": 1.3360484752160524,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006931200953610808,
      "loss": 0.6278,
      "step": 26900
    },
    {
      "epoch": 1.3365451475116719,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0006930803615774313,
      "loss": 0.6065,
      "step": 26910
    },
    {
      "epoch": 1.337041819807291,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0006930406277937817,
      "loss": 0.62,
      "step": 26920
    },
    {
      "epoch": 1.3375384921029105,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006930008940101321,
      "loss": 0.6124,
      "step": 26930
    },
    {
      "epoch": 1.33803516439853,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0006929611602264827,
      "loss": 0.618,
      "step": 26940
    },
    {
      "epoch": 1.3385318366941492,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006929214264428331,
      "loss": 0.6175,
      "step": 26950
    },
    {
      "epoch": 1.3390285089897684,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006928816926591835,
      "loss": 0.6139,
      "step": 26960
    },
    {
      "epoch": 1.339525181285388,
      "grad_norm": 0.09765625,
      "learning_rate": 0.000692841958875534,
      "loss": 0.6035,
      "step": 26970
    },
    {
      "epoch": 1.3400218535810073,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0006928022250918843,
      "loss": 0.6273,
      "step": 26980
    },
    {
      "epoch": 1.3405185258766266,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006927624913082349,
      "loss": 0.5981,
      "step": 26990
    },
    {
      "epoch": 1.341015198172246,
      "grad_norm": 0.15625,
      "learning_rate": 0.0006927227575245854,
      "loss": 0.6299,
      "step": 27000
    },
    {
      "epoch": 1.3415118704678652,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0006926830237409357,
      "loss": 0.6188,
      "step": 27010
    },
    {
      "epoch": 1.3420085427634847,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006926432899572862,
      "loss": 0.6372,
      "step": 27020
    },
    {
      "epoch": 1.342505215059104,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006926035561736366,
      "loss": 0.6362,
      "step": 27030
    },
    {
      "epoch": 1.3430018873547234,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006925638223899872,
      "loss": 0.6245,
      "step": 27040
    },
    {
      "epoch": 1.3434985596503428,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006925240886063376,
      "loss": 0.6176,
      "step": 27050
    },
    {
      "epoch": 1.343995231945962,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.000692484354822688,
      "loss": 0.5695,
      "step": 27060
    },
    {
      "epoch": 1.3444919042415813,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006924446210390385,
      "loss": 0.6038,
      "step": 27070
    },
    {
      "epoch": 1.3449885765372007,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006924048872553889,
      "loss": 0.6044,
      "step": 27080
    },
    {
      "epoch": 1.3454852488328202,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0006923651534717393,
      "loss": 0.606,
      "step": 27090
    },
    {
      "epoch": 1.3459819211284394,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0006923254196880899,
      "loss": 0.5946,
      "step": 27100
    },
    {
      "epoch": 1.3464785934240588,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006922856859044403,
      "loss": 0.6438,
      "step": 27110
    },
    {
      "epoch": 1.3469752657196783,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006922459521207907,
      "loss": 0.5927,
      "step": 27120
    },
    {
      "epoch": 1.3474719380152975,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0006922062183371412,
      "loss": 0.5905,
      "step": 27130
    },
    {
      "epoch": 1.3479686103109167,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006921664845534917,
      "loss": 0.6242,
      "step": 27140
    },
    {
      "epoch": 1.3484652826065362,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006921267507698421,
      "loss": 0.6159,
      "step": 27150
    },
    {
      "epoch": 1.3489619549021556,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006920870169861926,
      "loss": 0.6114,
      "step": 27160
    },
    {
      "epoch": 1.3494586271977749,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.000692047283202543,
      "loss": 0.5995,
      "step": 27170
    },
    {
      "epoch": 1.3499552994933943,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006920075494188934,
      "loss": 0.6224,
      "step": 27180
    },
    {
      "epoch": 1.3504519717890135,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.000691967815635244,
      "loss": 0.6009,
      "step": 27190
    },
    {
      "epoch": 1.350948644084633,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0006919280818515944,
      "loss": 0.5902,
      "step": 27200
    },
    {
      "epoch": 1.3514453163802522,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006918883480679448,
      "loss": 0.606,
      "step": 27210
    },
    {
      "epoch": 1.3519419886758717,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006918486142842953,
      "loss": 0.6061,
      "step": 27220
    },
    {
      "epoch": 1.3524386609714911,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0006918088805006457,
      "loss": 0.6187,
      "step": 27230
    },
    {
      "epoch": 1.3529353332671104,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006917691467169961,
      "loss": 0.6309,
      "step": 27240
    },
    {
      "epoch": 1.3534320055627296,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006917294129333466,
      "loss": 0.625,
      "step": 27250
    },
    {
      "epoch": 1.353928677858349,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006916896791496971,
      "loss": 0.6102,
      "step": 27260
    },
    {
      "epoch": 1.3544253501539685,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0006916499453660475,
      "loss": 0.6332,
      "step": 27270
    },
    {
      "epoch": 1.3549220224495877,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006916102115823979,
      "loss": 0.5904,
      "step": 27280
    },
    {
      "epoch": 1.3554186947452072,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006915704777987484,
      "loss": 0.6378,
      "step": 27290
    },
    {
      "epoch": 1.3559153670408264,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006915307440150989,
      "loss": 0.61,
      "step": 27300
    },
    {
      "epoch": 1.3564120393364458,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006914910102314493,
      "loss": 0.6269,
      "step": 27310
    },
    {
      "epoch": 1.356908711632065,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006914512764477998,
      "loss": 0.603,
      "step": 27320
    },
    {
      "epoch": 1.3574053839276845,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006914115426641502,
      "loss": 0.619,
      "step": 27330
    },
    {
      "epoch": 1.357902056223304,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006913718088805006,
      "loss": 0.6086,
      "step": 27340
    },
    {
      "epoch": 1.3583987285189232,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006913320750968512,
      "loss": 0.608,
      "step": 27350
    },
    {
      "epoch": 1.3588954008145426,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0006912923413132016,
      "loss": 0.595,
      "step": 27360
    },
    {
      "epoch": 1.3593920731101619,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.000691252607529552,
      "loss": 0.6164,
      "step": 27370
    },
    {
      "epoch": 1.3598887454057813,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006912128737459025,
      "loss": 0.6428,
      "step": 27380
    },
    {
      "epoch": 1.3603854177014005,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.000691173139962253,
      "loss": 0.6131,
      "step": 27390
    },
    {
      "epoch": 1.36088208999702,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0006911334061786034,
      "loss": 0.6363,
      "step": 27400
    },
    {
      "epoch": 1.3613787622926394,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0006910936723949539,
      "loss": 0.5877,
      "step": 27410
    },
    {
      "epoch": 1.3618754345882587,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006910539386113043,
      "loss": 0.6,
      "step": 27420
    },
    {
      "epoch": 1.3623721068838779,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006910142048276547,
      "loss": 0.6287,
      "step": 27430
    },
    {
      "epoch": 1.3628687791794973,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006909744710440051,
      "loss": 0.6438,
      "step": 27440
    },
    {
      "epoch": 1.3633654514751168,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006909347372603557,
      "loss": 0.6215,
      "step": 27450
    },
    {
      "epoch": 1.363862123770736,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006908950034767061,
      "loss": 0.6013,
      "step": 27460
    },
    {
      "epoch": 1.3643587960663555,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006908552696930565,
      "loss": 0.6294,
      "step": 27470
    },
    {
      "epoch": 1.3648554683619747,
      "grad_norm": 0.1015625,
      "learning_rate": 0.000690815535909407,
      "loss": 0.6018,
      "step": 27480
    },
    {
      "epoch": 1.3653521406575941,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006907758021257576,
      "loss": 0.5911,
      "step": 27490
    },
    {
      "epoch": 1.3658488129532134,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006907360683421079,
      "loss": 0.6479,
      "step": 27500
    },
    {
      "epoch": 1.3663454852488328,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006906963345584584,
      "loss": 0.6117,
      "step": 27510
    },
    {
      "epoch": 1.3668421575444523,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006906566007748088,
      "loss": 0.6127,
      "step": 27520
    },
    {
      "epoch": 1.3673388298400715,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006906168669911592,
      "loss": 0.6233,
      "step": 27530
    },
    {
      "epoch": 1.367835502135691,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006905771332075097,
      "loss": 0.6019,
      "step": 27540
    },
    {
      "epoch": 1.3683321744313102,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0006905373994238602,
      "loss": 0.6169,
      "step": 27550
    },
    {
      "epoch": 1.3688288467269296,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006904976656402106,
      "loss": 0.5841,
      "step": 27560
    },
    {
      "epoch": 1.3693255190225488,
      "grad_norm": 0.08740234375,
      "learning_rate": 0.0006904579318565611,
      "loss": 0.6046,
      "step": 27570
    },
    {
      "epoch": 1.3698221913181683,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006904181980729115,
      "loss": 0.609,
      "step": 27580
    },
    {
      "epoch": 1.3703188636137877,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006903784642892619,
      "loss": 0.6145,
      "step": 27590
    },
    {
      "epoch": 1.370815535909407,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006903387305056125,
      "loss": 0.6483,
      "step": 27600
    },
    {
      "epoch": 1.3713122082050262,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006902989967219629,
      "loss": 0.6199,
      "step": 27610
    },
    {
      "epoch": 1.3718088805006456,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006902592629383134,
      "loss": 0.6271,
      "step": 27620
    },
    {
      "epoch": 1.372305552796265,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006902195291546637,
      "loss": 0.6004,
      "step": 27630
    },
    {
      "epoch": 1.3728022250918843,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006901797953710142,
      "loss": 0.6027,
      "step": 27640
    },
    {
      "epoch": 1.3732988973875038,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0006901400615873648,
      "loss": 0.6139,
      "step": 27650
    },
    {
      "epoch": 1.373795569683123,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006901003278037151,
      "loss": 0.6204,
      "step": 27660
    },
    {
      "epoch": 1.3742922419787424,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0006900605940200656,
      "loss": 0.5861,
      "step": 27670
    },
    {
      "epoch": 1.3747889142743617,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006900208602364161,
      "loss": 0.6278,
      "step": 27680
    },
    {
      "epoch": 1.3752855865699811,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006899811264527664,
      "loss": 0.6139,
      "step": 27690
    },
    {
      "epoch": 1.3757822588656006,
      "grad_norm": 0.099609375,
      "learning_rate": 0.000689941392669117,
      "loss": 0.6202,
      "step": 27700
    },
    {
      "epoch": 1.3762789311612198,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006899016588854674,
      "loss": 0.5959,
      "step": 27710
    },
    {
      "epoch": 1.3767756034568392,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006898619251018178,
      "loss": 0.6025,
      "step": 27720
    },
    {
      "epoch": 1.3772722757524585,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006898221913181683,
      "loss": 0.5889,
      "step": 27730
    },
    {
      "epoch": 1.377768948048078,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0006897824575345187,
      "loss": 0.6065,
      "step": 27740
    },
    {
      "epoch": 1.3782656203436972,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006897427237508692,
      "loss": 0.5845,
      "step": 27750
    },
    {
      "epoch": 1.3787622926393166,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006897029899672197,
      "loss": 0.5899,
      "step": 27760
    },
    {
      "epoch": 1.379258964934936,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006896632561835701,
      "loss": 0.6149,
      "step": 27770
    },
    {
      "epoch": 1.3797556372305553,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006896235223999206,
      "loss": 0.6169,
      "step": 27780
    },
    {
      "epoch": 1.3802523095261745,
      "grad_norm": 0.095703125,
      "learning_rate": 0.000689583788616271,
      "loss": 0.6069,
      "step": 27790
    },
    {
      "epoch": 1.380748981821794,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006895440548326215,
      "loss": 0.6278,
      "step": 27800
    },
    {
      "epoch": 1.3812456541174134,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.000689504321048972,
      "loss": 0.5892,
      "step": 27810
    },
    {
      "epoch": 1.3817423264130326,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006894645872653224,
      "loss": 0.6149,
      "step": 27820
    },
    {
      "epoch": 1.382238998708652,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0006894248534816728,
      "loss": 0.6042,
      "step": 27830
    },
    {
      "epoch": 1.3827356710042713,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0006893851196980233,
      "loss": 0.6224,
      "step": 27840
    },
    {
      "epoch": 1.3832323432998908,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006893453859143737,
      "loss": 0.6311,
      "step": 27850
    },
    {
      "epoch": 1.38372901559551,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006893056521307242,
      "loss": 0.6114,
      "step": 27860
    },
    {
      "epoch": 1.3842256878911294,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006892659183470747,
      "loss": 0.6021,
      "step": 27870
    },
    {
      "epoch": 1.3847223601867489,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.000689226184563425,
      "loss": 0.6095,
      "step": 27880
    },
    {
      "epoch": 1.385219032482368,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006891864507797755,
      "loss": 0.5971,
      "step": 27890
    },
    {
      "epoch": 1.3857157047779876,
      "grad_norm": 0.109375,
      "learning_rate": 0.000689146716996126,
      "loss": 0.5634,
      "step": 27900
    },
    {
      "epoch": 1.3862123770736068,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006891069832124764,
      "loss": 0.6128,
      "step": 27910
    },
    {
      "epoch": 1.3867090493692262,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006890672494288269,
      "loss": 0.6113,
      "step": 27920
    },
    {
      "epoch": 1.3872057216648455,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006890275156451773,
      "loss": 0.5969,
      "step": 27930
    },
    {
      "epoch": 1.387702393960465,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006889877818615278,
      "loss": 0.6106,
      "step": 27940
    },
    {
      "epoch": 1.3881990662560844,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006889480480778783,
      "loss": 0.6181,
      "step": 27950
    },
    {
      "epoch": 1.3886957385517036,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006889083142942287,
      "loss": 0.6144,
      "step": 27960
    },
    {
      "epoch": 1.3891924108473228,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006888685805105792,
      "loss": 0.5952,
      "step": 27970
    },
    {
      "epoch": 1.3896890831429423,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006888288467269296,
      "loss": 0.6273,
      "step": 27980
    },
    {
      "epoch": 1.3901857554385617,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.00068878911294328,
      "loss": 0.611,
      "step": 27990
    },
    {
      "epoch": 1.390682427734181,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006887493791596306,
      "loss": 0.6432,
      "step": 28000
    },
    {
      "epoch": 1.3911791000298004,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.000688709645375981,
      "loss": 0.5919,
      "step": 28010
    },
    {
      "epoch": 1.3916757723254196,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0006886699115923314,
      "loss": 0.5956,
      "step": 28020
    },
    {
      "epoch": 1.392172444621039,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006886301778086819,
      "loss": 0.6022,
      "step": 28030
    },
    {
      "epoch": 1.3926691169166583,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006885904440250322,
      "loss": 0.6028,
      "step": 28040
    },
    {
      "epoch": 1.3931657892122777,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006885507102413828,
      "loss": 0.6129,
      "step": 28050
    },
    {
      "epoch": 1.3936624615078972,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0006885109764577333,
      "loss": 0.5869,
      "step": 28060
    },
    {
      "epoch": 1.3941591338035164,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006884712426740837,
      "loss": 0.6021,
      "step": 28070
    },
    {
      "epoch": 1.3946558060991359,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006884315088904341,
      "loss": 0.6046,
      "step": 28080
    },
    {
      "epoch": 1.395152478394755,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006883917751067846,
      "loss": 0.603,
      "step": 28090
    },
    {
      "epoch": 1.3956491506903745,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0006883520413231351,
      "loss": 0.614,
      "step": 28100
    },
    {
      "epoch": 1.3961458229859938,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006883123075394855,
      "loss": 0.5915,
      "step": 28110
    },
    {
      "epoch": 1.3966424952816132,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006882725737558359,
      "loss": 0.6009,
      "step": 28120
    },
    {
      "epoch": 1.3971391675772327,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0006882328399721864,
      "loss": 0.6098,
      "step": 28130
    },
    {
      "epoch": 1.397635839872852,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006881931061885368,
      "loss": 0.6106,
      "step": 28140
    },
    {
      "epoch": 1.3981325121684711,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006881533724048873,
      "loss": 0.6075,
      "step": 28150
    },
    {
      "epoch": 1.3986291844640906,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006881136386212378,
      "loss": 0.6005,
      "step": 28160
    },
    {
      "epoch": 1.39912585675971,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006880739048375882,
      "loss": 0.5895,
      "step": 28170
    },
    {
      "epoch": 1.3996225290553292,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006880341710539386,
      "loss": 0.6271,
      "step": 28180
    },
    {
      "epoch": 1.4001192013509487,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006879944372702891,
      "loss": 0.6261,
      "step": 28190
    },
    {
      "epoch": 1.400615873646568,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006879547034866396,
      "loss": 0.6023,
      "step": 28200
    },
    {
      "epoch": 1.4011125459421874,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.00068791496970299,
      "loss": 0.64,
      "step": 28210
    },
    {
      "epoch": 1.4016092182378066,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0006878752359193405,
      "loss": 0.5955,
      "step": 28220
    },
    {
      "epoch": 1.402105890533426,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006878355021356909,
      "loss": 0.5777,
      "step": 28230
    },
    {
      "epoch": 1.4026025628290455,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006877957683520413,
      "loss": 0.6048,
      "step": 28240
    },
    {
      "epoch": 1.4030992351246647,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0006877560345683919,
      "loss": 0.6006,
      "step": 28250
    },
    {
      "epoch": 1.4035959074202842,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006877163007847423,
      "loss": 0.5771,
      "step": 28260
    },
    {
      "epoch": 1.4040925797159034,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006876765670010927,
      "loss": 0.6036,
      "step": 28270
    },
    {
      "epoch": 1.4045892520115228,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006876368332174432,
      "loss": 0.5789,
      "step": 28280
    },
    {
      "epoch": 1.405085924307142,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006875970994337936,
      "loss": 0.6106,
      "step": 28290
    },
    {
      "epoch": 1.4055825966027615,
      "grad_norm": 0.1640625,
      "learning_rate": 0.000687557365650144,
      "loss": 0.6219,
      "step": 28300
    },
    {
      "epoch": 1.406079268898381,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006875176318664945,
      "loss": 0.6348,
      "step": 28310
    },
    {
      "epoch": 1.4065759411940002,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.000687477898082845,
      "loss": 0.6038,
      "step": 28320
    },
    {
      "epoch": 1.4070726134896194,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006874381642991954,
      "loss": 0.5846,
      "step": 28330
    },
    {
      "epoch": 1.4075692857852389,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006873984305155458,
      "loss": 0.6066,
      "step": 28340
    },
    {
      "epoch": 1.4080659580808583,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006873586967318964,
      "loss": 0.6239,
      "step": 28350
    },
    {
      "epoch": 1.4085626303764776,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006873189629482468,
      "loss": 0.5947,
      "step": 28360
    },
    {
      "epoch": 1.409059302672097,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0006872792291645972,
      "loss": 0.615,
      "step": 28370
    },
    {
      "epoch": 1.4095559749677162,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006872394953809477,
      "loss": 0.5876,
      "step": 28380
    },
    {
      "epoch": 1.4100526472633357,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006871997615972981,
      "loss": 0.6149,
      "step": 28390
    },
    {
      "epoch": 1.410549319558955,
      "grad_norm": 0.15625,
      "learning_rate": 0.0006871600278136485,
      "loss": 0.5882,
      "step": 28400
    },
    {
      "epoch": 1.4110459918545744,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006871202940299991,
      "loss": 0.6271,
      "step": 28410
    },
    {
      "epoch": 1.4115426641501938,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006870805602463495,
      "loss": 0.5835,
      "step": 28420
    },
    {
      "epoch": 1.412039336445813,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0006870408264626999,
      "loss": 0.6312,
      "step": 28430
    },
    {
      "epoch": 1.4125360087414325,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006870010926790504,
      "loss": 0.5719,
      "step": 28440
    },
    {
      "epoch": 1.4130326810370517,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0006869613588954009,
      "loss": 0.5973,
      "step": 28450
    },
    {
      "epoch": 1.4135293533326712,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006869216251117513,
      "loss": 0.6259,
      "step": 28460
    },
    {
      "epoch": 1.4140260256282904,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006868818913281018,
      "loss": 0.6359,
      "step": 28470
    },
    {
      "epoch": 1.4145226979239098,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006868421575444522,
      "loss": 0.5925,
      "step": 28480
    },
    {
      "epoch": 1.4150193702195293,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006868024237608026,
      "loss": 0.5965,
      "step": 28490
    },
    {
      "epoch": 1.4155160425151485,
      "grad_norm": 0.125,
      "learning_rate": 0.000686762689977153,
      "loss": 0.6216,
      "step": 28500
    },
    {
      "epoch": 1.4160127148107677,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006867229561935036,
      "loss": 0.5953,
      "step": 28510
    },
    {
      "epoch": 1.4165093871063872,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006866832224098541,
      "loss": 0.6156,
      "step": 28520
    },
    {
      "epoch": 1.4170060594020066,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006866434886262044,
      "loss": 0.6186,
      "step": 28530
    },
    {
      "epoch": 1.4175027316976259,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0006866037548425549,
      "loss": 0.6166,
      "step": 28540
    },
    {
      "epoch": 1.4179994039932453,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006865640210589055,
      "loss": 0.5936,
      "step": 28550
    },
    {
      "epoch": 1.4184960762888645,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006865242872752558,
      "loss": 0.6375,
      "step": 28560
    },
    {
      "epoch": 1.418992748584484,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006864845534916063,
      "loss": 0.6165,
      "step": 28570
    },
    {
      "epoch": 1.4194894208801032,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006864448197079567,
      "loss": 0.5936,
      "step": 28580
    },
    {
      "epoch": 1.4199860931757227,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006864050859243071,
      "loss": 0.5865,
      "step": 28590
    },
    {
      "epoch": 1.4204827654713421,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006863653521406576,
      "loss": 0.5765,
      "step": 28600
    },
    {
      "epoch": 1.4209794377669613,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006863256183570081,
      "loss": 0.5794,
      "step": 28610
    },
    {
      "epoch": 1.4214761100625808,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006862858845733585,
      "loss": 0.6259,
      "step": 28620
    },
    {
      "epoch": 1.4219727823582,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000686246150789709,
      "loss": 0.6048,
      "step": 28630
    },
    {
      "epoch": 1.4224694546538195,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0006862064170060594,
      "loss": 0.606,
      "step": 28640
    },
    {
      "epoch": 1.4229661269494387,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006861666832224098,
      "loss": 0.6099,
      "step": 28650
    },
    {
      "epoch": 1.4234627992450581,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0006861269494387604,
      "loss": 0.6104,
      "step": 28660
    },
    {
      "epoch": 1.4239594715406776,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006860872156551108,
      "loss": 0.6408,
      "step": 28670
    },
    {
      "epoch": 1.4244561438362968,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006860474818714613,
      "loss": 0.6107,
      "step": 28680
    },
    {
      "epoch": 1.424952816131916,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006860077480878117,
      "loss": 0.6043,
      "step": 28690
    },
    {
      "epoch": 1.4254494884275355,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006859680143041621,
      "loss": 0.6196,
      "step": 28700
    },
    {
      "epoch": 1.425946160723155,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006859282805205127,
      "loss": 0.5761,
      "step": 28710
    },
    {
      "epoch": 1.4264428330187742,
      "grad_norm": 0.146484375,
      "learning_rate": 0.000685888546736863,
      "loss": 0.61,
      "step": 28720
    },
    {
      "epoch": 1.4269395053143936,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006858488129532135,
      "loss": 0.5906,
      "step": 28730
    },
    {
      "epoch": 1.4274361776100128,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.000685809079169564,
      "loss": 0.578,
      "step": 28740
    },
    {
      "epoch": 1.4279328499056323,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0006857693453859143,
      "loss": 0.6389,
      "step": 28750
    },
    {
      "epoch": 1.4284295222012515,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006857296116022649,
      "loss": 0.6311,
      "step": 28760
    },
    {
      "epoch": 1.428926194496871,
      "grad_norm": 0.125,
      "learning_rate": 0.0006856898778186153,
      "loss": 0.6115,
      "step": 28770
    },
    {
      "epoch": 1.4294228667924904,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006856501440349657,
      "loss": 0.5909,
      "step": 28780
    },
    {
      "epoch": 1.4299195390881096,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006856104102513162,
      "loss": 0.5808,
      "step": 28790
    },
    {
      "epoch": 1.430416211383729,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006855706764676666,
      "loss": 0.6197,
      "step": 28800
    },
    {
      "epoch": 1.4309128836793483,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006855309426840171,
      "loss": 0.5979,
      "step": 28810
    },
    {
      "epoch": 1.4314095559749678,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006854912089003676,
      "loss": 0.6095,
      "step": 28820
    },
    {
      "epoch": 1.431906228270587,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.000685451475116718,
      "loss": 0.6002,
      "step": 28830
    },
    {
      "epoch": 1.4324029005662064,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0006854117413330685,
      "loss": 0.6342,
      "step": 28840
    },
    {
      "epoch": 1.432899572861826,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006853720075494189,
      "loss": 0.6459,
      "step": 28850
    },
    {
      "epoch": 1.4333962451574451,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006853322737657694,
      "loss": 0.5952,
      "step": 28860
    },
    {
      "epoch": 1.4338929174530644,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006852925399821199,
      "loss": 0.6145,
      "step": 28870
    },
    {
      "epoch": 1.4343895897486838,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006852528061984703,
      "loss": 0.6077,
      "step": 28880
    },
    {
      "epoch": 1.4348862620443033,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006852130724148207,
      "loss": 0.6086,
      "step": 28890
    },
    {
      "epoch": 1.4353829343399225,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006851733386311712,
      "loss": 0.6101,
      "step": 28900
    },
    {
      "epoch": 1.435879606635542,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0006851336048475216,
      "loss": 0.6171,
      "step": 28910
    },
    {
      "epoch": 1.4363762789311612,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0006850938710638721,
      "loss": 0.5873,
      "step": 28920
    },
    {
      "epoch": 1.4368729512267806,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006850541372802226,
      "loss": 0.638,
      "step": 28930
    },
    {
      "epoch": 1.4373696235223998,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006850144034965729,
      "loss": 0.6042,
      "step": 28940
    },
    {
      "epoch": 1.4378662958180193,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006849746697129234,
      "loss": 0.5868,
      "step": 28950
    },
    {
      "epoch": 1.4383629681136387,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0006849349359292739,
      "loss": 0.6008,
      "step": 28960
    },
    {
      "epoch": 1.438859640409258,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006848952021456244,
      "loss": 0.6159,
      "step": 28970
    },
    {
      "epoch": 1.4393563127048772,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006848554683619748,
      "loss": 0.5899,
      "step": 28980
    },
    {
      "epoch": 1.4398529850004966,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0006848157345783252,
      "loss": 0.5951,
      "step": 28990
    },
    {
      "epoch": 1.440349657296116,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006847760007946757,
      "loss": 0.6214,
      "step": 29000
    },
    {
      "epoch": 1.4408463295917353,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006847362670110262,
      "loss": 0.6028,
      "step": 29010
    },
    {
      "epoch": 1.4413430018873548,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006846965332273766,
      "loss": 0.6098,
      "step": 29020
    },
    {
      "epoch": 1.4418396741829742,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0006846567994437271,
      "loss": 0.6203,
      "step": 29030
    },
    {
      "epoch": 1.4423363464785934,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006846170656600775,
      "loss": 0.6068,
      "step": 29040
    },
    {
      "epoch": 1.4428330187742127,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006845773318764279,
      "loss": 0.6099,
      "step": 29050
    },
    {
      "epoch": 1.443329691069832,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0006845375980927785,
      "loss": 0.5605,
      "step": 29060
    },
    {
      "epoch": 1.4438263633654516,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006844978643091289,
      "loss": 0.5866,
      "step": 29070
    },
    {
      "epoch": 1.4443230356610708,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006844581305254793,
      "loss": 0.6057,
      "step": 29080
    },
    {
      "epoch": 1.4448197079566902,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006844183967418298,
      "loss": 0.6059,
      "step": 29090
    },
    {
      "epoch": 1.4453163802523095,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006843786629581801,
      "loss": 0.5785,
      "step": 29100
    },
    {
      "epoch": 1.445813052547929,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006843389291745307,
      "loss": 0.5752,
      "step": 29110
    },
    {
      "epoch": 1.4463097248435481,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006842991953908812,
      "loss": 0.5905,
      "step": 29120
    },
    {
      "epoch": 1.4468063971391676,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006842594616072316,
      "loss": 0.5859,
      "step": 29130
    },
    {
      "epoch": 1.447303069434787,
      "grad_norm": 0.130859375,
      "learning_rate": 0.000684219727823582,
      "loss": 0.6083,
      "step": 29140
    },
    {
      "epoch": 1.4477997417304063,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006841799940399325,
      "loss": 0.5989,
      "step": 29150
    },
    {
      "epoch": 1.4482964140260255,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.000684140260256283,
      "loss": 0.5948,
      "step": 29160
    },
    {
      "epoch": 1.448793086321645,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006841005264726334,
      "loss": 0.6228,
      "step": 29170
    },
    {
      "epoch": 1.4492897586172644,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006840607926889838,
      "loss": 0.599,
      "step": 29180
    },
    {
      "epoch": 1.4497864309128836,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006840210589053343,
      "loss": 0.6125,
      "step": 29190
    },
    {
      "epoch": 1.450283103208503,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006839813251216847,
      "loss": 0.6139,
      "step": 29200
    },
    {
      "epoch": 1.4507797755041225,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006839415913380352,
      "loss": 0.6245,
      "step": 29210
    },
    {
      "epoch": 1.4512764477997417,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006839018575543857,
      "loss": 0.619,
      "step": 29220
    },
    {
      "epoch": 1.451773120095361,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0006838621237707361,
      "loss": 0.6243,
      "step": 29230
    },
    {
      "epoch": 1.4522697923909804,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006838223899870865,
      "loss": 0.5803,
      "step": 29240
    },
    {
      "epoch": 1.4527664646865999,
      "grad_norm": 0.216796875,
      "learning_rate": 0.000683782656203437,
      "loss": 0.6058,
      "step": 29250
    },
    {
      "epoch": 1.453263136982219,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006837429224197875,
      "loss": 0.6069,
      "step": 29260
    },
    {
      "epoch": 1.4537598092778385,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006837031886361379,
      "loss": 0.5811,
      "step": 29270
    },
    {
      "epoch": 1.4542564815734578,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0006836634548524884,
      "loss": 0.5839,
      "step": 29280
    },
    {
      "epoch": 1.4547531538690772,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006836237210688388,
      "loss": 0.6351,
      "step": 29290
    },
    {
      "epoch": 1.4552498261646964,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006835839872851892,
      "loss": 0.6138,
      "step": 29300
    },
    {
      "epoch": 1.455746498460316,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0006835442535015398,
      "loss": 0.6059,
      "step": 29310
    },
    {
      "epoch": 1.4562431707559353,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006835045197178902,
      "loss": 0.5771,
      "step": 29320
    },
    {
      "epoch": 1.4567398430515546,
      "grad_norm": 0.125,
      "learning_rate": 0.0006834647859342406,
      "loss": 0.5944,
      "step": 29330
    },
    {
      "epoch": 1.4572365153471738,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006834250521505911,
      "loss": 0.5916,
      "step": 29340
    },
    {
      "epoch": 1.4577331876427932,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0006833853183669415,
      "loss": 0.6127,
      "step": 29350
    },
    {
      "epoch": 1.4582298599384127,
      "grad_norm": 0.109375,
      "learning_rate": 0.000683345584583292,
      "loss": 0.6273,
      "step": 29360
    },
    {
      "epoch": 1.458726532234032,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006833058507996424,
      "loss": 0.6252,
      "step": 29370
    },
    {
      "epoch": 1.4592232045296514,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006832661170159929,
      "loss": 0.5981,
      "step": 29380
    },
    {
      "epoch": 1.4597198768252708,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006832263832323433,
      "loss": 0.6148,
      "step": 29390
    },
    {
      "epoch": 1.46021654912089,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006831866494486937,
      "loss": 0.5942,
      "step": 29400
    },
    {
      "epoch": 1.4607132214165093,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006831469156650443,
      "loss": 0.6089,
      "step": 29410
    },
    {
      "epoch": 1.4612098937121287,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006831071818813948,
      "loss": 0.5826,
      "step": 29420
    },
    {
      "epoch": 1.4617065660077482,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006830674480977451,
      "loss": 0.6103,
      "step": 29430
    },
    {
      "epoch": 1.4622032383033674,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006830277143140956,
      "loss": 0.6019,
      "step": 29440
    },
    {
      "epoch": 1.4626999105989869,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.000682987980530446,
      "loss": 0.6102,
      "step": 29450
    },
    {
      "epoch": 1.463196582894606,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006829482467467965,
      "loss": 0.6198,
      "step": 29460
    },
    {
      "epoch": 1.4636932551902255,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.000682908512963147,
      "loss": 0.5934,
      "step": 29470
    },
    {
      "epoch": 1.4641899274858448,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006828687791794974,
      "loss": 0.5846,
      "step": 29480
    },
    {
      "epoch": 1.4646865997814642,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006828290453958478,
      "loss": 0.6057,
      "step": 29490
    },
    {
      "epoch": 1.4651832720770837,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006827893116121983,
      "loss": 0.633,
      "step": 29500
    },
    {
      "epoch": 1.4656799443727029,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006827495778285488,
      "loss": 0.6107,
      "step": 29510
    },
    {
      "epoch": 1.466176616668322,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0006827098440448992,
      "loss": 0.6107,
      "step": 29520
    },
    {
      "epoch": 1.4666732889639416,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006826701102612497,
      "loss": 0.5991,
      "step": 29530
    },
    {
      "epoch": 1.467169961259561,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006826303764776001,
      "loss": 0.6115,
      "step": 29540
    },
    {
      "epoch": 1.4676666335551802,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006825906426939505,
      "loss": 0.6148,
      "step": 29550
    },
    {
      "epoch": 1.4681633058507997,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.000682550908910301,
      "loss": 0.6007,
      "step": 29560
    },
    {
      "epoch": 1.468659978146419,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006825111751266515,
      "loss": 0.6115,
      "step": 29570
    },
    {
      "epoch": 1.4691566504420384,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.000682471441343002,
      "loss": 0.6059,
      "step": 29580
    },
    {
      "epoch": 1.4696533227376576,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006824317075593523,
      "loss": 0.6125,
      "step": 29590
    },
    {
      "epoch": 1.470149995033277,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006823919737757028,
      "loss": 0.5979,
      "step": 29600
    },
    {
      "epoch": 1.4706466673288965,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006823522399920534,
      "loss": 0.598,
      "step": 29610
    },
    {
      "epoch": 1.4711433396245157,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0006823125062084037,
      "loss": 0.6289,
      "step": 29620
    },
    {
      "epoch": 1.4716400119201352,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006822727724247542,
      "loss": 0.6102,
      "step": 29630
    },
    {
      "epoch": 1.4721366842157544,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006822330386411046,
      "loss": 0.5902,
      "step": 29640
    },
    {
      "epoch": 1.4726333565113738,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.000682193304857455,
      "loss": 0.5947,
      "step": 29650
    },
    {
      "epoch": 1.473130028806993,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006821535710738056,
      "loss": 0.5978,
      "step": 29660
    },
    {
      "epoch": 1.4736267011026125,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.000682113837290156,
      "loss": 0.6403,
      "step": 29670
    },
    {
      "epoch": 1.474123373398232,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0006820741035065064,
      "loss": 0.607,
      "step": 29680
    },
    {
      "epoch": 1.4746200456938512,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006820343697228569,
      "loss": 0.6096,
      "step": 29690
    },
    {
      "epoch": 1.4751167179894704,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006819946359392073,
      "loss": 0.6089,
      "step": 29700
    },
    {
      "epoch": 1.4756133902850899,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0006819549021555579,
      "loss": 0.6185,
      "step": 29710
    },
    {
      "epoch": 1.4761100625807093,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006819151683719083,
      "loss": 0.5886,
      "step": 29720
    },
    {
      "epoch": 1.4766067348763285,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006818754345882587,
      "loss": 0.6284,
      "step": 29730
    },
    {
      "epoch": 1.477103407171948,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006818357008046092,
      "loss": 0.587,
      "step": 29740
    },
    {
      "epoch": 1.4776000794675672,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006817959670209596,
      "loss": 0.5764,
      "step": 29750
    },
    {
      "epoch": 1.4780967517631867,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.00068175623323731,
      "loss": 0.6388,
      "step": 29760
    },
    {
      "epoch": 1.478593424058806,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006817164994536606,
      "loss": 0.5818,
      "step": 29770
    },
    {
      "epoch": 1.4790900963544253,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006816767656700109,
      "loss": 0.6276,
      "step": 29780
    },
    {
      "epoch": 1.4795867686500448,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0006816370318863614,
      "loss": 0.5938,
      "step": 29790
    },
    {
      "epoch": 1.480083440945664,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006815972981027119,
      "loss": 0.5975,
      "step": 29800
    },
    {
      "epoch": 1.4805801132412835,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006815575643190622,
      "loss": 0.6227,
      "step": 29810
    },
    {
      "epoch": 1.4810767855369027,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0006815178305354128,
      "loss": 0.612,
      "step": 29820
    },
    {
      "epoch": 1.4815734578325221,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006814780967517632,
      "loss": 0.5949,
      "step": 29830
    },
    {
      "epoch": 1.4820701301281414,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006814383629681136,
      "loss": 0.5996,
      "step": 29840
    },
    {
      "epoch": 1.4825668024237608,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006813986291844641,
      "loss": 0.5888,
      "step": 29850
    },
    {
      "epoch": 1.4830634747193803,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006813588954008145,
      "loss": 0.6183,
      "step": 29860
    },
    {
      "epoch": 1.4835601470149995,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006813191616171651,
      "loss": 0.626,
      "step": 29870
    },
    {
      "epoch": 1.4840568193106187,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006812794278335155,
      "loss": 0.6085,
      "step": 29880
    },
    {
      "epoch": 1.4845534916062382,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0006812396940498659,
      "loss": 0.5884,
      "step": 29890
    },
    {
      "epoch": 1.4850501639018576,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006811999602662164,
      "loss": 0.6011,
      "step": 29900
    },
    {
      "epoch": 1.4855468361974768,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006811602264825668,
      "loss": 0.6363,
      "step": 29910
    },
    {
      "epoch": 1.4860435084930963,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006811204926989173,
      "loss": 0.6158,
      "step": 29920
    },
    {
      "epoch": 1.4865401807887155,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0006810807589152678,
      "loss": 0.5923,
      "step": 29930
    },
    {
      "epoch": 1.487036853084335,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0006810410251316182,
      "loss": 0.6281,
      "step": 29940
    },
    {
      "epoch": 1.4875335253799542,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0006810012913479686,
      "loss": 0.5919,
      "step": 29950
    },
    {
      "epoch": 1.4880301976755737,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006809615575643192,
      "loss": 0.6249,
      "step": 29960
    },
    {
      "epoch": 1.488526869971193,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006809218237806695,
      "loss": 0.5997,
      "step": 29970
    },
    {
      "epoch": 1.4890235422668123,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.00068088208999702,
      "loss": 0.6269,
      "step": 29980
    },
    {
      "epoch": 1.4895202145624318,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006808423562133705,
      "loss": 0.6076,
      "step": 29990
    },
    {
      "epoch": 1.490016886858051,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0006808026224297208,
      "loss": 0.5876,
      "step": 30000
    },
    {
      "epoch": 1.4905135591536705,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006807628886460713,
      "loss": 0.6008,
      "step": 30010
    },
    {
      "epoch": 1.4910102314492897,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0006807231548624219,
      "loss": 0.5796,
      "step": 30020
    },
    {
      "epoch": 1.4915069037449091,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006806834210787723,
      "loss": 0.5966,
      "step": 30030
    },
    {
      "epoch": 1.4920035760405286,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006806436872951227,
      "loss": 0.6028,
      "step": 30040
    },
    {
      "epoch": 1.4925002483361478,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006806039535114731,
      "loss": 0.6235,
      "step": 30050
    },
    {
      "epoch": 1.492996920631767,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006805642197278236,
      "loss": 0.6222,
      "step": 30060
    },
    {
      "epoch": 1.4934935929273865,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006805244859441741,
      "loss": 0.5923,
      "step": 30070
    },
    {
      "epoch": 1.493990265223006,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.0006804847521605245,
      "loss": 0.5916,
      "step": 30080
    },
    {
      "epoch": 1.4944869375186252,
      "grad_norm": 0.099609375,
      "learning_rate": 0.000680445018376875,
      "loss": 0.6256,
      "step": 30090
    },
    {
      "epoch": 1.4949836098142446,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006804052845932254,
      "loss": 0.608,
      "step": 30100
    },
    {
      "epoch": 1.4954802821098638,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006803655508095758,
      "loss": 0.5927,
      "step": 30110
    },
    {
      "epoch": 1.4959769544054833,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006803258170259264,
      "loss": 0.6394,
      "step": 30120
    },
    {
      "epoch": 1.4964736267011025,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0006802860832422768,
      "loss": 0.6129,
      "step": 30130
    },
    {
      "epoch": 1.496970298996722,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0006802463494586272,
      "loss": 0.6006,
      "step": 30140
    },
    {
      "epoch": 1.4974669712923414,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006802066156749777,
      "loss": 0.6076,
      "step": 30150
    },
    {
      "epoch": 1.4979636435879606,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0006801668818913281,
      "loss": 0.6152,
      "step": 30160
    },
    {
      "epoch": 1.49846031588358,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006801271481076786,
      "loss": 0.6272,
      "step": 30170
    },
    {
      "epoch": 1.4989569881791993,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006800874143240291,
      "loss": 0.6088,
      "step": 30180
    },
    {
      "epoch": 1.4994536604748188,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006800476805403795,
      "loss": 0.6184,
      "step": 30190
    },
    {
      "epoch": 1.499950332770438,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006800079467567299,
      "loss": 0.594,
      "step": 30200
    },
    {
      "epoch": 1.5004470050660574,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0006799682129730804,
      "loss": 0.617,
      "step": 30210
    },
    {
      "epoch": 1.5009436773616769,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006799284791894309,
      "loss": 0.6101,
      "step": 30220
    },
    {
      "epoch": 1.5014403496572961,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0006798887454057813,
      "loss": 0.6013,
      "step": 30230
    },
    {
      "epoch": 1.5019370219529153,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006798490116221317,
      "loss": 0.6145,
      "step": 30240
    },
    {
      "epoch": 1.5024336942485348,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0006798092778384822,
      "loss": 0.6136,
      "step": 30250
    },
    {
      "epoch": 1.5029303665441542,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006797695440548326,
      "loss": 0.6326,
      "step": 30260
    },
    {
      "epoch": 1.5034270388397735,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006797298102711831,
      "loss": 0.6127,
      "step": 30270
    },
    {
      "epoch": 1.503923711135393,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0006796900764875336,
      "loss": 0.5979,
      "step": 30280
    },
    {
      "epoch": 1.5044203834310124,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.000679650342703884,
      "loss": 0.6082,
      "step": 30290
    },
    {
      "epoch": 1.5049170557266316,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006796106089202344,
      "loss": 0.6313,
      "step": 30300
    },
    {
      "epoch": 1.5054137280222508,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006795708751365849,
      "loss": 0.5912,
      "step": 30310
    },
    {
      "epoch": 1.5059104003178703,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006795311413529354,
      "loss": 0.6078,
      "step": 30320
    },
    {
      "epoch": 1.5064070726134897,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006794914075692858,
      "loss": 0.5964,
      "step": 30330
    },
    {
      "epoch": 1.506903744909109,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006794516737856363,
      "loss": 0.5968,
      "step": 30340
    },
    {
      "epoch": 1.5074004172047282,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006794119400019867,
      "loss": 0.6018,
      "step": 30350
    },
    {
      "epoch": 1.5078970895003476,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006793722062183371,
      "loss": 0.5776,
      "step": 30360
    },
    {
      "epoch": 1.508393761795967,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006793324724346877,
      "loss": 0.616,
      "step": 30370
    },
    {
      "epoch": 1.5088904340915863,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006792927386510381,
      "loss": 0.6041,
      "step": 30380
    },
    {
      "epoch": 1.5093871063872057,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0006792530048673885,
      "loss": 0.6189,
      "step": 30390
    },
    {
      "epoch": 1.5098837786828252,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.000679213271083739,
      "loss": 0.6155,
      "step": 30400
    },
    {
      "epoch": 1.5103804509784444,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006791735373000894,
      "loss": 0.596,
      "step": 30410
    },
    {
      "epoch": 1.5108771232740636,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006791338035164399,
      "loss": 0.614,
      "step": 30420
    },
    {
      "epoch": 1.511373795569683,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006790940697327903,
      "loss": 0.5913,
      "step": 30430
    },
    {
      "epoch": 1.5118704678653025,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006790543359491408,
      "loss": 0.6084,
      "step": 30440
    },
    {
      "epoch": 1.5123671401609218,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006790146021654912,
      "loss": 0.5904,
      "step": 30450
    },
    {
      "epoch": 1.5128638124565412,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0006789748683818416,
      "loss": 0.5973,
      "step": 30460
    },
    {
      "epoch": 1.5133604847521607,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006789351345981922,
      "loss": 0.6363,
      "step": 30470
    },
    {
      "epoch": 1.51385715704778,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006788954008145427,
      "loss": 0.617,
      "step": 30480
    },
    {
      "epoch": 1.5143538293433991,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.000678855667030893,
      "loss": 0.6019,
      "step": 30490
    },
    {
      "epoch": 1.5148505016390186,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006788159332472435,
      "loss": 0.5968,
      "step": 30500
    },
    {
      "epoch": 1.515347173934638,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0006787761994635939,
      "loss": 0.6072,
      "step": 30510
    },
    {
      "epoch": 1.5158438462302573,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006787364656799444,
      "loss": 0.6382,
      "step": 30520
    },
    {
      "epoch": 1.5163405185258765,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0006786967318962949,
      "loss": 0.5835,
      "step": 30530
    },
    {
      "epoch": 1.516837190821496,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006786569981126453,
      "loss": 0.6065,
      "step": 30540
    },
    {
      "epoch": 1.5173338631171154,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006786172643289957,
      "loss": 0.6027,
      "step": 30550
    },
    {
      "epoch": 1.5178305354127346,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006785775305453462,
      "loss": 0.5881,
      "step": 30560
    },
    {
      "epoch": 1.518327207708354,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0006785377967616967,
      "loss": 0.5985,
      "step": 30570
    },
    {
      "epoch": 1.5188238800039735,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006784980629780471,
      "loss": 0.5662,
      "step": 30580
    },
    {
      "epoch": 1.5193205522995927,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0006784583291943976,
      "loss": 0.5797,
      "step": 30590
    },
    {
      "epoch": 1.519817224595212,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.000678418595410748,
      "loss": 0.565,
      "step": 30600
    },
    {
      "epoch": 1.5203138968908314,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0006783788616270985,
      "loss": 0.5841,
      "step": 30610
    },
    {
      "epoch": 1.5208105691864509,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.000678339127843449,
      "loss": 0.6007,
      "step": 30620
    },
    {
      "epoch": 1.52130724148207,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006782993940597994,
      "loss": 0.5948,
      "step": 30630
    },
    {
      "epoch": 1.5218039137776895,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006782596602761499,
      "loss": 0.5944,
      "step": 30640
    },
    {
      "epoch": 1.522300586073309,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0006782199264925002,
      "loss": 0.6135,
      "step": 30650
    },
    {
      "epoch": 1.5227972583689282,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0006781801927088507,
      "loss": 0.6057,
      "step": 30660
    },
    {
      "epoch": 1.5232939306645474,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006781404589252013,
      "loss": 0.6222,
      "step": 30670
    },
    {
      "epoch": 1.5237906029601669,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006781007251415516,
      "loss": 0.5781,
      "step": 30680
    },
    {
      "epoch": 1.5242872752557863,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006780609913579021,
      "loss": 0.6204,
      "step": 30690
    },
    {
      "epoch": 1.5247839475514056,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006780212575742525,
      "loss": 0.6038,
      "step": 30700
    },
    {
      "epoch": 1.5252806198470248,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006779815237906029,
      "loss": 0.6073,
      "step": 30710
    },
    {
      "epoch": 1.5257772921426442,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006779417900069535,
      "loss": 0.6317,
      "step": 30720
    },
    {
      "epoch": 1.5262739644382637,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006779020562233039,
      "loss": 0.6054,
      "step": 30730
    },
    {
      "epoch": 1.526770636733883,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006778623224396543,
      "loss": 0.5999,
      "step": 30740
    },
    {
      "epoch": 1.5272673090295024,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0006778225886560048,
      "loss": 0.6027,
      "step": 30750
    },
    {
      "epoch": 1.5277639813251218,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006777828548723552,
      "loss": 0.6004,
      "step": 30760
    },
    {
      "epoch": 1.528260653620741,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006777431210887058,
      "loss": 0.5881,
      "step": 30770
    },
    {
      "epoch": 1.5287573259163603,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006777033873050562,
      "loss": 0.6004,
      "step": 30780
    },
    {
      "epoch": 1.5292539982119797,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006776636535214066,
      "loss": 0.6021,
      "step": 30790
    },
    {
      "epoch": 1.5297506705075992,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0006776239197377571,
      "loss": 0.6088,
      "step": 30800
    },
    {
      "epoch": 1.5302473428032184,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006775841859541075,
      "loss": 0.5897,
      "step": 30810
    },
    {
      "epoch": 1.5307440150988378,
      "grad_norm": 0.1015625,
      "learning_rate": 0.000677544452170458,
      "loss": 0.5908,
      "step": 30820
    },
    {
      "epoch": 1.5312406873944573,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006775047183868085,
      "loss": 0.5859,
      "step": 30830
    },
    {
      "epoch": 1.5317373596900765,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006774649846031588,
      "loss": 0.5808,
      "step": 30840
    },
    {
      "epoch": 1.5322340319856957,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0006774252508195093,
      "loss": 0.6055,
      "step": 30850
    },
    {
      "epoch": 1.5327307042813152,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0006773855170358598,
      "loss": 0.5918,
      "step": 30860
    },
    {
      "epoch": 1.5332273765769346,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006773457832522101,
      "loss": 0.6138,
      "step": 30870
    },
    {
      "epoch": 1.5337240488725539,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006773060494685607,
      "loss": 0.6295,
      "step": 30880
    },
    {
      "epoch": 1.534220721168173,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006772663156849112,
      "loss": 0.6049,
      "step": 30890
    },
    {
      "epoch": 1.5347173934637925,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006772265819012615,
      "loss": 0.5895,
      "step": 30900
    },
    {
      "epoch": 1.535214065759412,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.000677186848117612,
      "loss": 0.6292,
      "step": 30910
    },
    {
      "epoch": 1.5357107380550312,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006771471143339625,
      "loss": 0.6287,
      "step": 30920
    },
    {
      "epoch": 1.5362074103506507,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.000677107380550313,
      "loss": 0.5945,
      "step": 30930
    },
    {
      "epoch": 1.5367040826462701,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006770676467666634,
      "loss": 0.6321,
      "step": 30940
    },
    {
      "epoch": 1.5372007549418893,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006770279129830138,
      "loss": 0.6027,
      "step": 30950
    },
    {
      "epoch": 1.5376974272375086,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006769881791993643,
      "loss": 0.6035,
      "step": 30960
    },
    {
      "epoch": 1.538194099533128,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006769484454157148,
      "loss": 0.6127,
      "step": 30970
    },
    {
      "epoch": 1.5386907718287475,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006769087116320652,
      "loss": 0.5827,
      "step": 30980
    },
    {
      "epoch": 1.5391874441243667,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006768689778484157,
      "loss": 0.617,
      "step": 30990
    },
    {
      "epoch": 1.5396841164199861,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006768292440647661,
      "loss": 0.6028,
      "step": 31000
    },
    {
      "epoch": 1.5401807887156056,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006767895102811165,
      "loss": 0.5821,
      "step": 31010
    },
    {
      "epoch": 1.5406774610112248,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0006767497764974671,
      "loss": 0.602,
      "step": 31020
    },
    {
      "epoch": 1.541174133306844,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006767100427138174,
      "loss": 0.6195,
      "step": 31030
    },
    {
      "epoch": 1.5416708056024635,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006766703089301679,
      "loss": 0.6345,
      "step": 31040
    },
    {
      "epoch": 1.542167477898083,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0006766305751465184,
      "loss": 0.6286,
      "step": 31050
    },
    {
      "epoch": 1.5426641501937022,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0006765908413628688,
      "loss": 0.607,
      "step": 31060
    },
    {
      "epoch": 1.5431608224893214,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006765511075792192,
      "loss": 0.6033,
      "step": 31070
    },
    {
      "epoch": 1.5436574947849409,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006765113737955698,
      "loss": 0.5816,
      "step": 31080
    },
    {
      "epoch": 1.5441541670805603,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006764716400119202,
      "loss": 0.6319,
      "step": 31090
    },
    {
      "epoch": 1.5446508393761795,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0006764319062282706,
      "loss": 0.5986,
      "step": 31100
    },
    {
      "epoch": 1.545147511671799,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.000676392172444621,
      "loss": 0.6509,
      "step": 31110
    },
    {
      "epoch": 1.5456441839674184,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006763524386609716,
      "loss": 0.5765,
      "step": 31120
    },
    {
      "epoch": 1.5461408562630377,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.000676312704877322,
      "loss": 0.5904,
      "step": 31130
    },
    {
      "epoch": 1.5466375285586569,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0006762729710936724,
      "loss": 0.5956,
      "step": 31140
    },
    {
      "epoch": 1.5471342008542763,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0006762332373100229,
      "loss": 0.5829,
      "step": 31150
    },
    {
      "epoch": 1.5476308731498958,
      "grad_norm": 0.125,
      "learning_rate": 0.0006761935035263733,
      "loss": 0.5784,
      "step": 31160
    },
    {
      "epoch": 1.548127545445515,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0006761537697427237,
      "loss": 0.6014,
      "step": 31170
    },
    {
      "epoch": 1.5486242177411342,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.0006761140359590743,
      "loss": 0.6188,
      "step": 31180
    },
    {
      "epoch": 1.549120890036754,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006760743021754247,
      "loss": 0.6035,
      "step": 31190
    },
    {
      "epoch": 1.5496175623323731,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006760345683917751,
      "loss": 0.5998,
      "step": 31200
    },
    {
      "epoch": 1.5501142346279924,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006759948346081256,
      "loss": 0.5868,
      "step": 31210
    },
    {
      "epoch": 1.5506109069236118,
      "grad_norm": 0.146484375,
      "learning_rate": 0.000675955100824476,
      "loss": 0.6067,
      "step": 31220
    },
    {
      "epoch": 1.5511075792192313,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006759153670408265,
      "loss": 0.6151,
      "step": 31230
    },
    {
      "epoch": 1.5516042515148505,
      "grad_norm": 0.109375,
      "learning_rate": 0.000675875633257177,
      "loss": 0.6484,
      "step": 31240
    },
    {
      "epoch": 1.5521009238104697,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0006758358994735274,
      "loss": 0.6143,
      "step": 31250
    },
    {
      "epoch": 1.5525975961060892,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006757961656898778,
      "loss": 0.5907,
      "step": 31260
    },
    {
      "epoch": 1.5530942684017086,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0006757564319062284,
      "loss": 0.6016,
      "step": 31270
    },
    {
      "epoch": 1.5535909406973278,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0006757166981225788,
      "loss": 0.6084,
      "step": 31280
    },
    {
      "epoch": 1.5540876129929473,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006756769643389292,
      "loss": 0.6154,
      "step": 31290
    },
    {
      "epoch": 1.5545842852885667,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006756372305552796,
      "loss": 0.6008,
      "step": 31300
    },
    {
      "epoch": 1.555080957584186,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006755974967716301,
      "loss": 0.5986,
      "step": 31310
    },
    {
      "epoch": 1.5555776298798052,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006755577629879805,
      "loss": 0.5987,
      "step": 31320
    },
    {
      "epoch": 1.5560743021754246,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.000675518029204331,
      "loss": 0.5984,
      "step": 31330
    },
    {
      "epoch": 1.556570974471044,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0006754782954206815,
      "loss": 0.5834,
      "step": 31340
    },
    {
      "epoch": 1.5570676467666633,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0006754385616370319,
      "loss": 0.6261,
      "step": 31350
    },
    {
      "epoch": 1.5575643190622825,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006753988278533823,
      "loss": 0.5748,
      "step": 31360
    },
    {
      "epoch": 1.5580609913579022,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006753590940697328,
      "loss": 0.5874,
      "step": 31370
    },
    {
      "epoch": 1.5585576636535214,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006753193602860833,
      "loss": 0.5873,
      "step": 31380
    },
    {
      "epoch": 1.5590543359491407,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.0006752796265024337,
      "loss": 0.6083,
      "step": 31390
    },
    {
      "epoch": 1.5595510082447601,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006752398927187842,
      "loss": 0.5917,
      "step": 31400
    },
    {
      "epoch": 1.5600476805403796,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0006752001589351346,
      "loss": 0.6035,
      "step": 31410
    },
    {
      "epoch": 1.5605443528359988,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.000675160425151485,
      "loss": 0.5833,
      "step": 31420
    },
    {
      "epoch": 1.561041025131618,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006751206913678356,
      "loss": 0.5765,
      "step": 31430
    },
    {
      "epoch": 1.5615376974272375,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.000675080957584186,
      "loss": 0.5868,
      "step": 31440
    },
    {
      "epoch": 1.562034369722857,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006750412238005364,
      "loss": 0.6094,
      "step": 31450
    },
    {
      "epoch": 1.5625310420184761,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0006750014900168869,
      "loss": 0.5841,
      "step": 31460
    },
    {
      "epoch": 1.5630277143140956,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006749617562332373,
      "loss": 0.5807,
      "step": 31470
    },
    {
      "epoch": 1.563524386609715,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006749220224495878,
      "loss": 0.5957,
      "step": 31480
    },
    {
      "epoch": 1.5640210589053343,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006748822886659383,
      "loss": 0.6276,
      "step": 31490
    },
    {
      "epoch": 1.5645177312009535,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006748425548822887,
      "loss": 0.5916,
      "step": 31500
    },
    {
      "epoch": 1.565014403496573,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0006748028210986392,
      "loss": 0.5754,
      "step": 31510
    },
    {
      "epoch": 1.5655110757921924,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006747630873149895,
      "loss": 0.6124,
      "step": 31520
    },
    {
      "epoch": 1.5660077480878116,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006747233535313401,
      "loss": 0.579,
      "step": 31530
    },
    {
      "epoch": 1.5665044203834309,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0006746836197476906,
      "loss": 0.6369,
      "step": 31540
    },
    {
      "epoch": 1.5670010926790505,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006746438859640409,
      "loss": 0.6231,
      "step": 31550
    },
    {
      "epoch": 1.5674977649746697,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006746041521803914,
      "loss": 0.6074,
      "step": 31560
    },
    {
      "epoch": 1.567994437270289,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006745644183967418,
      "loss": 0.6241,
      "step": 31570
    },
    {
      "epoch": 1.5684911095659084,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006745246846130923,
      "loss": 0.5816,
      "step": 31580
    },
    {
      "epoch": 1.5689877818615279,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006744849508294428,
      "loss": 0.6155,
      "step": 31590
    },
    {
      "epoch": 1.569484454157147,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006744452170457932,
      "loss": 0.6011,
      "step": 31600
    },
    {
      "epoch": 1.5699811264527663,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006744054832621436,
      "loss": 0.6116,
      "step": 31610
    },
    {
      "epoch": 1.5704777987483858,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0006743657494784941,
      "loss": 0.5968,
      "step": 31620
    },
    {
      "epoch": 1.5709744710440052,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006743260156948446,
      "loss": 0.5831,
      "step": 31630
    },
    {
      "epoch": 1.5714711433396245,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.000674286281911195,
      "loss": 0.614,
      "step": 31640
    },
    {
      "epoch": 1.571967815635244,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006742465481275455,
      "loss": 0.5724,
      "step": 31650
    },
    {
      "epoch": 1.5724644879308634,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0006742068143438959,
      "loss": 0.5828,
      "step": 31660
    },
    {
      "epoch": 1.5729611602264826,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006741670805602464,
      "loss": 0.5952,
      "step": 31670
    },
    {
      "epoch": 1.5734578325221018,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0006741273467765969,
      "loss": 0.6089,
      "step": 31680
    },
    {
      "epoch": 1.5739545048177213,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006740876129929473,
      "loss": 0.6162,
      "step": 31690
    },
    {
      "epoch": 1.5744511771133407,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006740478792092978,
      "loss": 0.5958,
      "step": 31700
    },
    {
      "epoch": 1.57494784940896,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006740081454256481,
      "loss": 0.5772,
      "step": 31710
    },
    {
      "epoch": 1.5754445217045792,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006739684116419986,
      "loss": 0.594,
      "step": 31720
    },
    {
      "epoch": 1.5759411940001988,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0006739286778583492,
      "loss": 0.6195,
      "step": 31730
    },
    {
      "epoch": 1.576437866295818,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006738889440746995,
      "loss": 0.6125,
      "step": 31740
    },
    {
      "epoch": 1.5769345385914373,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.00067384921029105,
      "loss": 0.6229,
      "step": 31750
    },
    {
      "epoch": 1.5774312108870567,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0006738094765074005,
      "loss": 0.5876,
      "step": 31760
    },
    {
      "epoch": 1.5779278831826762,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006737697427237508,
      "loss": 0.5819,
      "step": 31770
    },
    {
      "epoch": 1.5784245554782954,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006737300089401014,
      "loss": 0.59,
      "step": 31780
    },
    {
      "epoch": 1.5789212277739146,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006736902751564518,
      "loss": 0.6214,
      "step": 31790
    },
    {
      "epoch": 1.579417900069534,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006736505413728022,
      "loss": 0.6092,
      "step": 31800
    },
    {
      "epoch": 1.5799145723651535,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0006736108075891527,
      "loss": 0.601,
      "step": 31810
    },
    {
      "epoch": 1.5804112446607728,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006735710738055031,
      "loss": 0.6004,
      "step": 31820
    },
    {
      "epoch": 1.5809079169563922,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0006735313400218537,
      "loss": 0.5944,
      "step": 31830
    },
    {
      "epoch": 1.5814045892520117,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006734916062382041,
      "loss": 0.6069,
      "step": 31840
    },
    {
      "epoch": 1.5819012615476309,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006734518724545545,
      "loss": 0.5988,
      "step": 31850
    },
    {
      "epoch": 1.5823979338432501,
      "grad_norm": 0.138671875,
      "learning_rate": 0.000673412138670905,
      "loss": 0.5958,
      "step": 31860
    },
    {
      "epoch": 1.5828946061388696,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006733724048872554,
      "loss": 0.5858,
      "step": 31870
    },
    {
      "epoch": 1.583391278434489,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006733326711036059,
      "loss": 0.6077,
      "step": 31880
    },
    {
      "epoch": 1.5838879507301082,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0006732929373199564,
      "loss": 0.5997,
      "step": 31890
    },
    {
      "epoch": 1.5843846230257275,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006732532035363067,
      "loss": 0.6122,
      "step": 31900
    },
    {
      "epoch": 1.5848812953213471,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0006732134697526572,
      "loss": 0.5781,
      "step": 31910
    },
    {
      "epoch": 1.5853779676169664,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006731737359690077,
      "loss": 0.5809,
      "step": 31920
    },
    {
      "epoch": 1.5858746399125856,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.000673134002185358,
      "loss": 0.6108,
      "step": 31930
    },
    {
      "epoch": 1.586371312208205,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006730942684017086,
      "loss": 0.604,
      "step": 31940
    },
    {
      "epoch": 1.5868679845038245,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006730545346180591,
      "loss": 0.6119,
      "step": 31950
    },
    {
      "epoch": 1.5873646567994437,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0006730148008344095,
      "loss": 0.5925,
      "step": 31960
    },
    {
      "epoch": 1.587861329095063,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006729750670507599,
      "loss": 0.588,
      "step": 31970
    },
    {
      "epoch": 1.5883580013906824,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0006729353332671104,
      "loss": 0.6016,
      "step": 31980
    },
    {
      "epoch": 1.5888546736863018,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006728955994834609,
      "loss": 0.6076,
      "step": 31990
    },
    {
      "epoch": 1.589351345981921,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006728558656998113,
      "loss": 0.6245,
      "step": 32000
    },
    {
      "epoch": 1.5898480182775405,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006728161319161617,
      "loss": 0.5935,
      "step": 32010
    },
    {
      "epoch": 1.59034469057316,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006727763981325122,
      "loss": 0.6305,
      "step": 32020
    },
    {
      "epoch": 1.5908413628687792,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006727366643488627,
      "loss": 0.5974,
      "step": 32030
    },
    {
      "epoch": 1.5913380351643984,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0006726969305652131,
      "loss": 0.5709,
      "step": 32040
    },
    {
      "epoch": 1.5918347074600179,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006726571967815636,
      "loss": 0.5996,
      "step": 32050
    },
    {
      "epoch": 1.5923313797556373,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.000672617462997914,
      "loss": 0.6167,
      "step": 32060
    },
    {
      "epoch": 1.5928280520512565,
      "grad_norm": 0.0869140625,
      "learning_rate": 0.0006725777292142644,
      "loss": 0.6354,
      "step": 32070
    },
    {
      "epoch": 1.5933247243468758,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.000672537995430615,
      "loss": 0.5934,
      "step": 32080
    },
    {
      "epoch": 1.5938213966424954,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006724982616469653,
      "loss": 0.5804,
      "step": 32090
    },
    {
      "epoch": 1.5943180689381147,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006724585278633158,
      "loss": 0.5837,
      "step": 32100
    },
    {
      "epoch": 1.594814741233734,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006724187940796663,
      "loss": 0.5765,
      "step": 32110
    },
    {
      "epoch": 1.5953114135293534,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006723790602960167,
      "loss": 0.6098,
      "step": 32120
    },
    {
      "epoch": 1.5958080858249728,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006723393265123672,
      "loss": 0.5863,
      "step": 32130
    },
    {
      "epoch": 1.596304758120592,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006722995927287177,
      "loss": 0.5996,
      "step": 32140
    },
    {
      "epoch": 1.5968014304162113,
      "grad_norm": 0.171875,
      "learning_rate": 0.0006722598589450681,
      "loss": 0.6006,
      "step": 32150
    },
    {
      "epoch": 1.5972981027118307,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006722201251614185,
      "loss": 0.5707,
      "step": 32160
    },
    {
      "epoch": 1.5977947750074502,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006721803913777689,
      "loss": 0.5769,
      "step": 32170
    },
    {
      "epoch": 1.5982914473030694,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006721406575941195,
      "loss": 0.607,
      "step": 32180
    },
    {
      "epoch": 1.5987881195986888,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006721009238104699,
      "loss": 0.5976,
      "step": 32190
    },
    {
      "epoch": 1.5992847918943083,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006720611900268203,
      "loss": 0.6053,
      "step": 32200
    },
    {
      "epoch": 1.5997814641899275,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006720214562431708,
      "loss": 0.6023,
      "step": 32210
    },
    {
      "epoch": 1.6002781364855467,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006719817224595212,
      "loss": 0.6075,
      "step": 32220
    },
    {
      "epoch": 1.6007748087811662,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006719419886758716,
      "loss": 0.5845,
      "step": 32230
    },
    {
      "epoch": 1.6012714810767856,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006719022548922222,
      "loss": 0.6106,
      "step": 32240
    },
    {
      "epoch": 1.6017681533724049,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006718625211085726,
      "loss": 0.6036,
      "step": 32250
    },
    {
      "epoch": 1.602264825668024,
      "grad_norm": 0.171875,
      "learning_rate": 0.000671822787324923,
      "loss": 0.6072,
      "step": 32260
    },
    {
      "epoch": 1.6027614979636435,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006717830535412735,
      "loss": 0.5904,
      "step": 32270
    },
    {
      "epoch": 1.603258170259263,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.000671743319757624,
      "loss": 0.5886,
      "step": 32280
    },
    {
      "epoch": 1.6037548425548822,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006717035859739744,
      "loss": 0.6086,
      "step": 32290
    },
    {
      "epoch": 1.6042515148505017,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0006716638521903249,
      "loss": 0.6034,
      "step": 32300
    },
    {
      "epoch": 1.604748187146121,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0006716241184066753,
      "loss": 0.6138,
      "step": 32310
    },
    {
      "epoch": 1.6052448594417403,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0006715843846230257,
      "loss": 0.614,
      "step": 32320
    },
    {
      "epoch": 1.6057415317373596,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006715446508393763,
      "loss": 0.5995,
      "step": 32330
    },
    {
      "epoch": 1.606238204032979,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006715049170557267,
      "loss": 0.5998,
      "step": 32340
    },
    {
      "epoch": 1.6067348763285985,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006714651832720771,
      "loss": 0.5739,
      "step": 32350
    },
    {
      "epoch": 1.6072315486242177,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006714254494884275,
      "loss": 0.5946,
      "step": 32360
    },
    {
      "epoch": 1.6077282209198371,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.000671385715704778,
      "loss": 0.5991,
      "step": 32370
    },
    {
      "epoch": 1.6082248932154566,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006713459819211284,
      "loss": 0.612,
      "step": 32380
    },
    {
      "epoch": 1.6087215655110758,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0006713062481374789,
      "loss": 0.5953,
      "step": 32390
    },
    {
      "epoch": 1.609218237806695,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006712665143538294,
      "loss": 0.5863,
      "step": 32400
    },
    {
      "epoch": 1.6097149101023145,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006712267805701799,
      "loss": 0.5835,
      "step": 32410
    },
    {
      "epoch": 1.610211582397934,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006711870467865302,
      "loss": 0.6002,
      "step": 32420
    },
    {
      "epoch": 1.6107082546935532,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006711473130028808,
      "loss": 0.5809,
      "step": 32430
    },
    {
      "epoch": 1.6112049269891724,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006711075792192312,
      "loss": 0.6159,
      "step": 32440
    },
    {
      "epoch": 1.6117015992847918,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0006710678454355816,
      "loss": 0.6001,
      "step": 32450
    },
    {
      "epoch": 1.6121982715804113,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006710281116519321,
      "loss": 0.625,
      "step": 32460
    },
    {
      "epoch": 1.6126949438760305,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006709883778682825,
      "loss": 0.6024,
      "step": 32470
    },
    {
      "epoch": 1.61319161617165,
      "grad_norm": 0.10546875,
      "learning_rate": 0.000670948644084633,
      "loss": 0.5837,
      "step": 32480
    },
    {
      "epoch": 1.6136882884672694,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0006709089103009835,
      "loss": 0.5987,
      "step": 32490
    },
    {
      "epoch": 1.6141849607628886,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0006708691765173339,
      "loss": 0.5843,
      "step": 32500
    },
    {
      "epoch": 1.6146816330585079,
      "grad_norm": 0.08642578125,
      "learning_rate": 0.0006708294427336843,
      "loss": 0.5891,
      "step": 32510
    },
    {
      "epoch": 1.6151783053541273,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006707897089500348,
      "loss": 0.593,
      "step": 32520
    },
    {
      "epoch": 1.6156749776497468,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006707499751663852,
      "loss": 0.6336,
      "step": 32530
    },
    {
      "epoch": 1.616171649945366,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006707102413827357,
      "loss": 0.5974,
      "step": 32540
    },
    {
      "epoch": 1.6166683222409854,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006706705075990862,
      "loss": 0.5764,
      "step": 32550
    },
    {
      "epoch": 1.617164994536605,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0006706307738154366,
      "loss": 0.6318,
      "step": 32560
    },
    {
      "epoch": 1.6176616668322241,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006705910400317871,
      "loss": 0.5853,
      "step": 32570
    },
    {
      "epoch": 1.6181583391278433,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006705513062481374,
      "loss": 0.5914,
      "step": 32580
    },
    {
      "epoch": 1.6186550114234628,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.000670511572464488,
      "loss": 0.5874,
      "step": 32590
    },
    {
      "epoch": 1.6191516837190822,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006704718386808385,
      "loss": 0.5953,
      "step": 32600
    },
    {
      "epoch": 1.6196483560147015,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006704321048971888,
      "loss": 0.5655,
      "step": 32610
    },
    {
      "epoch": 1.6201450283103207,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006703923711135393,
      "loss": 0.6293,
      "step": 32620
    },
    {
      "epoch": 1.6206417006059401,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006703526373298897,
      "loss": 0.5849,
      "step": 32630
    },
    {
      "epoch": 1.6211383729015596,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006703129035462402,
      "loss": 0.5957,
      "step": 32640
    },
    {
      "epoch": 1.6216350451971788,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0006702731697625907,
      "loss": 0.5986,
      "step": 32650
    },
    {
      "epoch": 1.6221317174927983,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006702334359789411,
      "loss": 0.6059,
      "step": 32660
    },
    {
      "epoch": 1.6226283897884177,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006701937021952915,
      "loss": 0.6147,
      "step": 32670
    },
    {
      "epoch": 1.623125062084037,
      "grad_norm": 0.140625,
      "learning_rate": 0.000670153968411642,
      "loss": 0.602,
      "step": 32680
    },
    {
      "epoch": 1.6236217343796562,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006701142346279925,
      "loss": 0.5796,
      "step": 32690
    },
    {
      "epoch": 1.6241184066752756,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.000670074500844343,
      "loss": 0.6129,
      "step": 32700
    },
    {
      "epoch": 1.624615078970895,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006700347670606934,
      "loss": 0.5866,
      "step": 32710
    },
    {
      "epoch": 1.6251117512665143,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0006699950332770438,
      "loss": 0.609,
      "step": 32720
    },
    {
      "epoch": 1.6256084235621338,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006699552994933944,
      "loss": 0.639,
      "step": 32730
    },
    {
      "epoch": 1.6261050958577532,
      "grad_norm": 0.125,
      "learning_rate": 0.0006699155657097448,
      "loss": 0.6427,
      "step": 32740
    },
    {
      "epoch": 1.6266017681533724,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0006698758319260952,
      "loss": 0.5993,
      "step": 32750
    },
    {
      "epoch": 1.6270984404489917,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006698360981424457,
      "loss": 0.5942,
      "step": 32760
    },
    {
      "epoch": 1.627595112744611,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.000669796364358796,
      "loss": 0.5955,
      "step": 32770
    },
    {
      "epoch": 1.6280917850402306,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006697566305751465,
      "loss": 0.6021,
      "step": 32780
    },
    {
      "epoch": 1.6285884573358498,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006697168967914971,
      "loss": 0.608,
      "step": 32790
    },
    {
      "epoch": 1.629085129631469,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006696771630078474,
      "loss": 0.572,
      "step": 32800
    },
    {
      "epoch": 1.6295818019270885,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006696374292241979,
      "loss": 0.6285,
      "step": 32810
    },
    {
      "epoch": 1.630078474222708,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006695976954405484,
      "loss": 0.5893,
      "step": 32820
    },
    {
      "epoch": 1.6305751465183271,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006695579616568987,
      "loss": 0.5894,
      "step": 32830
    },
    {
      "epoch": 1.6310718188139466,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006695182278732493,
      "loss": 0.6047,
      "step": 32840
    },
    {
      "epoch": 1.631568491109566,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0006694784940895997,
      "loss": 0.6013,
      "step": 32850
    },
    {
      "epoch": 1.6320651634051853,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0006694387603059502,
      "loss": 0.6161,
      "step": 32860
    },
    {
      "epoch": 1.6325618357008045,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0006693990265223006,
      "loss": 0.583,
      "step": 32870
    },
    {
      "epoch": 1.633058507996424,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000669359292738651,
      "loss": 0.6175,
      "step": 32880
    },
    {
      "epoch": 1.6335551802920434,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0006693195589550016,
      "loss": 0.5876,
      "step": 32890
    },
    {
      "epoch": 1.6340518525876626,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.000669279825171352,
      "loss": 0.5955,
      "step": 32900
    },
    {
      "epoch": 1.634548524883282,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006692400913877024,
      "loss": 0.5851,
      "step": 32910
    },
    {
      "epoch": 1.6350451971789015,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0006692003576040529,
      "loss": 0.6354,
      "step": 32920
    },
    {
      "epoch": 1.6355418694745207,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006691606238204033,
      "loss": 0.5891,
      "step": 32930
    },
    {
      "epoch": 1.63603854177014,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006691208900367538,
      "loss": 0.6053,
      "step": 32940
    },
    {
      "epoch": 1.6365352140657594,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006690811562531043,
      "loss": 0.5908,
      "step": 32950
    },
    {
      "epoch": 1.6370318863613789,
      "grad_norm": 0.171875,
      "learning_rate": 0.0006690414224694546,
      "loss": 0.5854,
      "step": 32960
    },
    {
      "epoch": 1.637528558656998,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006690016886858051,
      "loss": 0.5946,
      "step": 32970
    },
    {
      "epoch": 1.6380252309526173,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006689619549021556,
      "loss": 0.6006,
      "step": 32980
    },
    {
      "epoch": 1.6385219032482368,
      "grad_norm": 0.142578125,
      "learning_rate": 0.000668922221118506,
      "loss": 0.5873,
      "step": 32990
    },
    {
      "epoch": 1.6390185755438562,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006688824873348565,
      "loss": 0.6015,
      "step": 33000
    },
    {
      "epoch": 1.6395152478394754,
      "grad_norm": 0.099609375,
      "learning_rate": 0.000668842753551207,
      "loss": 0.5932,
      "step": 33010
    },
    {
      "epoch": 1.640011920135095,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0006688030197675574,
      "loss": 0.601,
      "step": 33020
    },
    {
      "epoch": 1.6405085924307143,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006687632859839078,
      "loss": 0.5883,
      "step": 33030
    },
    {
      "epoch": 1.6410052647263336,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006687235522002583,
      "loss": 0.619,
      "step": 33040
    },
    {
      "epoch": 1.6415019370219528,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0006686838184166088,
      "loss": 0.5785,
      "step": 33050
    },
    {
      "epoch": 1.6419986093175722,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0006686440846329592,
      "loss": 0.6193,
      "step": 33060
    },
    {
      "epoch": 1.6424952816131917,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006686043508493096,
      "loss": 0.6014,
      "step": 33070
    },
    {
      "epoch": 1.642991953908811,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006685646170656601,
      "loss": 0.6019,
      "step": 33080
    },
    {
      "epoch": 1.6434886262044304,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006685248832820106,
      "loss": 0.5937,
      "step": 33090
    },
    {
      "epoch": 1.6439852985000498,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.000668485149498361,
      "loss": 0.6061,
      "step": 33100
    },
    {
      "epoch": 1.644481970795669,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006684454157147115,
      "loss": 0.571,
      "step": 33110
    },
    {
      "epoch": 1.6449786430912883,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006684056819310619,
      "loss": 0.6038,
      "step": 33120
    },
    {
      "epoch": 1.6454753153869077,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0006683659481474123,
      "loss": 0.5675,
      "step": 33130
    },
    {
      "epoch": 1.6459719876825272,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006683262143637629,
      "loss": 0.6265,
      "step": 33140
    },
    {
      "epoch": 1.6464686599781464,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006682864805801133,
      "loss": 0.6078,
      "step": 33150
    },
    {
      "epoch": 1.6469653322737656,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006682467467964637,
      "loss": 0.5742,
      "step": 33160
    },
    {
      "epoch": 1.647462004569385,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006682070130128142,
      "loss": 0.5663,
      "step": 33170
    },
    {
      "epoch": 1.6479586768650045,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0006681672792291646,
      "loss": 0.5814,
      "step": 33180
    },
    {
      "epoch": 1.6484553491606238,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006681275454455151,
      "loss": 0.6041,
      "step": 33190
    },
    {
      "epoch": 1.6489520214562432,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0006680878116618656,
      "loss": 0.5971,
      "step": 33200
    },
    {
      "epoch": 1.6494486937518626,
      "grad_norm": 0.12890625,
      "learning_rate": 0.000668048077878216,
      "loss": 0.5873,
      "step": 33210
    },
    {
      "epoch": 1.6499453660474819,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006680083440945664,
      "loss": 0.5809,
      "step": 33220
    },
    {
      "epoch": 1.650442038343101,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006679686103109168,
      "loss": 0.5429,
      "step": 33230
    },
    {
      "epoch": 1.6509387106387206,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006679288765272674,
      "loss": 0.5753,
      "step": 33240
    },
    {
      "epoch": 1.65143538293434,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006678891427436178,
      "loss": 0.5938,
      "step": 33250
    },
    {
      "epoch": 1.6519320552299592,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006678494089599682,
      "loss": 0.6029,
      "step": 33260
    },
    {
      "epoch": 1.6524287275255787,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006678096751763187,
      "loss": 0.5796,
      "step": 33270
    },
    {
      "epoch": 1.6529253998211981,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006677699413926691,
      "loss": 0.5814,
      "step": 33280
    },
    {
      "epoch": 1.6534220721168174,
      "grad_norm": 0.0869140625,
      "learning_rate": 0.0006677302076090196,
      "loss": 0.5828,
      "step": 33290
    },
    {
      "epoch": 1.6539187444124366,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006676904738253701,
      "loss": 0.5606,
      "step": 33300
    },
    {
      "epoch": 1.654415416708056,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0006676507400417205,
      "loss": 0.6069,
      "step": 33310
    },
    {
      "epoch": 1.6549120890036755,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006676110062580709,
      "loss": 0.5975,
      "step": 33320
    },
    {
      "epoch": 1.6554087612992947,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006675712724744214,
      "loss": 0.587,
      "step": 33330
    },
    {
      "epoch": 1.655905433594914,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006675315386907719,
      "loss": 0.576,
      "step": 33340
    },
    {
      "epoch": 1.6564021058905334,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0006674918049071223,
      "loss": 0.6055,
      "step": 33350
    },
    {
      "epoch": 1.6568987781861528,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006674520711234728,
      "loss": 0.5697,
      "step": 33360
    },
    {
      "epoch": 1.657395450481772,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0006674123373398232,
      "loss": 0.5907,
      "step": 33370
    },
    {
      "epoch": 1.6578921227773915,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006673726035561736,
      "loss": 0.5925,
      "step": 33380
    },
    {
      "epoch": 1.658388795073011,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006673328697725242,
      "loss": 0.6118,
      "step": 33390
    },
    {
      "epoch": 1.6588854673686302,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0006672931359888746,
      "loss": 0.6064,
      "step": 33400
    },
    {
      "epoch": 1.6593821396642494,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000667253402205225,
      "loss": 0.5998,
      "step": 33410
    },
    {
      "epoch": 1.6598788119598689,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0006672136684215755,
      "loss": 0.5894,
      "step": 33420
    },
    {
      "epoch": 1.6603754842554883,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0006671739346379259,
      "loss": 0.5991,
      "step": 33430
    },
    {
      "epoch": 1.6608721565511075,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0006671342008542764,
      "loss": 0.5902,
      "step": 33440
    },
    {
      "epoch": 1.6613688288467268,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006670944670706268,
      "loss": 0.6083,
      "step": 33450
    },
    {
      "epoch": 1.6618655011423464,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006670547332869773,
      "loss": 0.5757,
      "step": 33460
    },
    {
      "epoch": 1.6623621734379657,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0006670149995033278,
      "loss": 0.5965,
      "step": 33470
    },
    {
      "epoch": 1.662858845733585,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006669752657196781,
      "loss": 0.6245,
      "step": 33480
    },
    {
      "epoch": 1.6633555180292043,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0006669355319360287,
      "loss": 0.6389,
      "step": 33490
    },
    {
      "epoch": 1.6638521903248238,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006668957981523791,
      "loss": 0.5866,
      "step": 33500
    },
    {
      "epoch": 1.664348862620443,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006668560643687295,
      "loss": 0.5713,
      "step": 33510
    },
    {
      "epoch": 1.6648455349160622,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.00066681633058508,
      "loss": 0.6158,
      "step": 33520
    },
    {
      "epoch": 1.6653422072116817,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0006667765968014304,
      "loss": 0.5874,
      "step": 33530
    },
    {
      "epoch": 1.6658388795073011,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006667368630177808,
      "loss": 0.5814,
      "step": 33540
    },
    {
      "epoch": 1.6663355518029204,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0006666971292341314,
      "loss": 0.586,
      "step": 33550
    },
    {
      "epoch": 1.6668322240985398,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006666573954504818,
      "loss": 0.5789,
      "step": 33560
    },
    {
      "epoch": 1.6673288963941593,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006666176616668322,
      "loss": 0.5843,
      "step": 33570
    },
    {
      "epoch": 1.6678255686897785,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0006665779278831827,
      "loss": 0.5828,
      "step": 33580
    },
    {
      "epoch": 1.6683222409853977,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006665381940995332,
      "loss": 0.5808,
      "step": 33590
    },
    {
      "epoch": 1.6688189132810172,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006664984603158837,
      "loss": 0.5988,
      "step": 33600
    },
    {
      "epoch": 1.6693155855766366,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006664587265322341,
      "loss": 0.5865,
      "step": 33610
    },
    {
      "epoch": 1.6698122578722558,
      "grad_norm": 0.15625,
      "learning_rate": 0.0006664189927485845,
      "loss": 0.5933,
      "step": 33620
    },
    {
      "epoch": 1.670308930167875,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000666379258964935,
      "loss": 0.5899,
      "step": 33630
    },
    {
      "epoch": 1.6708056024634947,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0006663395251812853,
      "loss": 0.5751,
      "step": 33640
    },
    {
      "epoch": 1.671302274759114,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006662997913976359,
      "loss": 0.5719,
      "step": 33650
    },
    {
      "epoch": 1.6717989470547332,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006662600576139864,
      "loss": 0.5757,
      "step": 33660
    },
    {
      "epoch": 1.6722956193503526,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006662203238303367,
      "loss": 0.6287,
      "step": 33670
    },
    {
      "epoch": 1.672792291645972,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006661805900466872,
      "loss": 0.6213,
      "step": 33680
    },
    {
      "epoch": 1.6732889639415913,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006661408562630378,
      "loss": 0.6159,
      "step": 33690
    },
    {
      "epoch": 1.6737856362372106,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006661011224793881,
      "loss": 0.5905,
      "step": 33700
    },
    {
      "epoch": 1.67428230853283,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006660613886957386,
      "loss": 0.6113,
      "step": 33710
    },
    {
      "epoch": 1.6747789808284494,
      "grad_norm": 0.095703125,
      "learning_rate": 0.000666021654912089,
      "loss": 0.5731,
      "step": 33720
    },
    {
      "epoch": 1.6752756531240687,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0006659819211284394,
      "loss": 0.5678,
      "step": 33730
    },
    {
      "epoch": 1.6757723254196881,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.00066594218734479,
      "loss": 0.5949,
      "step": 33740
    },
    {
      "epoch": 1.6762689977153076,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006659024535611404,
      "loss": 0.5886,
      "step": 33750
    },
    {
      "epoch": 1.6767656700109268,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006658627197774909,
      "loss": 0.5974,
      "step": 33760
    },
    {
      "epoch": 1.677262342306546,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006658229859938413,
      "loss": 0.58,
      "step": 33770
    },
    {
      "epoch": 1.6777590146021655,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006657832522101917,
      "loss": 0.5542,
      "step": 33780
    },
    {
      "epoch": 1.678255686897785,
      "grad_norm": 0.0859375,
      "learning_rate": 0.0006657435184265423,
      "loss": 0.5807,
      "step": 33790
    },
    {
      "epoch": 1.6787523591934042,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006657037846428927,
      "loss": 0.5959,
      "step": 33800
    },
    {
      "epoch": 1.6792490314890234,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006656640508592431,
      "loss": 0.5967,
      "step": 33810
    },
    {
      "epoch": 1.679745703784643,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006656243170755936,
      "loss": 0.6256,
      "step": 33820
    },
    {
      "epoch": 1.6802423760802623,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006655845832919439,
      "loss": 0.5835,
      "step": 33830
    },
    {
      "epoch": 1.6807390483758815,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006655448495082944,
      "loss": 0.6092,
      "step": 33840
    },
    {
      "epoch": 1.681235720671501,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.000665505115724645,
      "loss": 0.6094,
      "step": 33850
    },
    {
      "epoch": 1.6817323929671204,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0006654653819409953,
      "loss": 0.6105,
      "step": 33860
    },
    {
      "epoch": 1.6822290652627396,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0006654256481573458,
      "loss": 0.632,
      "step": 33870
    },
    {
      "epoch": 1.6827257375583589,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006653859143736963,
      "loss": 0.6004,
      "step": 33880
    },
    {
      "epoch": 1.6832224098539783,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006653461805900466,
      "loss": 0.5981,
      "step": 33890
    },
    {
      "epoch": 1.6837190821495978,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006653064468063972,
      "loss": 0.5944,
      "step": 33900
    },
    {
      "epoch": 1.684215754445217,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006652667130227476,
      "loss": 0.599,
      "step": 33910
    },
    {
      "epoch": 1.6847124267408364,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0006652269792390981,
      "loss": 0.5958,
      "step": 33920
    },
    {
      "epoch": 1.6852090990364559,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006651872454554485,
      "loss": 0.5523,
      "step": 33930
    },
    {
      "epoch": 1.685705771332075,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006651475116717989,
      "loss": 0.5817,
      "step": 33940
    },
    {
      "epoch": 1.6862024436276943,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006651077778881495,
      "loss": 0.579,
      "step": 33950
    },
    {
      "epoch": 1.6866991159233138,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0006650680441044999,
      "loss": 0.6026,
      "step": 33960
    },
    {
      "epoch": 1.6871957882189332,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0006650283103208503,
      "loss": 0.5954,
      "step": 33970
    },
    {
      "epoch": 1.6876924605145525,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0006649885765372008,
      "loss": 0.5736,
      "step": 33980
    },
    {
      "epoch": 1.6881891328101717,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0006649488427535512,
      "loss": 0.5884,
      "step": 33990
    },
    {
      "epoch": 1.6886858051057914,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0006649091089699017,
      "loss": 0.6015,
      "step": 34000
    },
    {
      "epoch": 1.6891824774014106,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006648693751862522,
      "loss": 0.5854,
      "step": 34010
    },
    {
      "epoch": 1.6896791496970298,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006648296414026026,
      "loss": 0.6298,
      "step": 34020
    },
    {
      "epoch": 1.6901758219926493,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.000664789907618953,
      "loss": 0.576,
      "step": 34030
    },
    {
      "epoch": 1.6906724942882687,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006647501738353036,
      "loss": 0.5603,
      "step": 34040
    },
    {
      "epoch": 1.691169166583888,
      "grad_norm": 0.099609375,
      "learning_rate": 0.000664710440051654,
      "loss": 0.601,
      "step": 34050
    },
    {
      "epoch": 1.6916658388795072,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0006646707062680044,
      "loss": 0.6415,
      "step": 34060
    },
    {
      "epoch": 1.6921625111751266,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006646309724843549,
      "loss": 0.6118,
      "step": 34070
    },
    {
      "epoch": 1.692659183470746,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006645912387007053,
      "loss": 0.5767,
      "step": 34080
    },
    {
      "epoch": 1.6931558557663653,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006645515049170557,
      "loss": 0.5706,
      "step": 34090
    },
    {
      "epoch": 1.6936525280619847,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006645117711334062,
      "loss": 0.6036,
      "step": 34100
    },
    {
      "epoch": 1.6941492003576042,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006644720373497567,
      "loss": 0.6352,
      "step": 34110
    },
    {
      "epoch": 1.6946458726532234,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006644323035661071,
      "loss": 0.5675,
      "step": 34120
    },
    {
      "epoch": 1.6951425449488426,
      "grad_norm": 0.125,
      "learning_rate": 0.0006643925697824575,
      "loss": 0.6123,
      "step": 34130
    },
    {
      "epoch": 1.695639217244462,
      "grad_norm": 0.11328125,
      "learning_rate": 0.000664352835998808,
      "loss": 0.5847,
      "step": 34140
    },
    {
      "epoch": 1.6961358895400815,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006643131022151585,
      "loss": 0.589,
      "step": 34150
    },
    {
      "epoch": 1.6966325618357008,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0006642733684315089,
      "loss": 0.5961,
      "step": 34160
    },
    {
      "epoch": 1.69712923413132,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006642336346478594,
      "loss": 0.6074,
      "step": 34170
    },
    {
      "epoch": 1.6976259064269397,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0006641939008642098,
      "loss": 0.5817,
      "step": 34180
    },
    {
      "epoch": 1.698122578722559,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006641541670805602,
      "loss": 0.5915,
      "step": 34190
    },
    {
      "epoch": 1.6986192510181781,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0006641144332969108,
      "loss": 0.5905,
      "step": 34200
    },
    {
      "epoch": 1.6991159233137976,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006640746995132612,
      "loss": 0.5991,
      "step": 34210
    },
    {
      "epoch": 1.699612595609417,
      "grad_norm": 0.125,
      "learning_rate": 0.0006640349657296116,
      "loss": 0.5691,
      "step": 34220
    },
    {
      "epoch": 1.7001092679050362,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006639952319459621,
      "loss": 0.5869,
      "step": 34230
    },
    {
      "epoch": 1.7006059402006555,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006639554981623125,
      "loss": 0.6391,
      "step": 34240
    },
    {
      "epoch": 1.701102612496275,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.000663915764378663,
      "loss": 0.583,
      "step": 34250
    },
    {
      "epoch": 1.7015992847918944,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006638760305950135,
      "loss": 0.6054,
      "step": 34260
    },
    {
      "epoch": 1.7020959570875136,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006638362968113639,
      "loss": 0.5867,
      "step": 34270
    },
    {
      "epoch": 1.702592629383133,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006637965630277143,
      "loss": 0.6036,
      "step": 34280
    },
    {
      "epoch": 1.7030893016787525,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006637568292440648,
      "loss": 0.6233,
      "step": 34290
    },
    {
      "epoch": 1.7035859739743717,
      "grad_norm": 0.08642578125,
      "learning_rate": 0.0006637170954604153,
      "loss": 0.5898,
      "step": 34300
    },
    {
      "epoch": 1.704082646269991,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006636773616767657,
      "loss": 0.6078,
      "step": 34310
    },
    {
      "epoch": 1.7045793185656104,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006636376278931161,
      "loss": 0.6156,
      "step": 34320
    },
    {
      "epoch": 1.7050759908612299,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006635978941094666,
      "loss": 0.5982,
      "step": 34330
    },
    {
      "epoch": 1.705572663156849,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006635581603258171,
      "loss": 0.5923,
      "step": 34340
    },
    {
      "epoch": 1.7060693354524683,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0006635184265421675,
      "loss": 0.5583,
      "step": 34350
    },
    {
      "epoch": 1.706566007748088,
      "grad_norm": 0.15625,
      "learning_rate": 0.000663478692758518,
      "loss": 0.5799,
      "step": 34360
    },
    {
      "epoch": 1.7070626800437072,
      "grad_norm": 0.125,
      "learning_rate": 0.0006634389589748684,
      "loss": 0.5927,
      "step": 34370
    },
    {
      "epoch": 1.7075593523393264,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006633992251912188,
      "loss": 0.5996,
      "step": 34380
    },
    {
      "epoch": 1.7080560246349459,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006633594914075693,
      "loss": 0.6004,
      "step": 34390
    },
    {
      "epoch": 1.7085526969305653,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006633197576239198,
      "loss": 0.611,
      "step": 34400
    },
    {
      "epoch": 1.7090493692261846,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006632800238402702,
      "loss": 0.5754,
      "step": 34410
    },
    {
      "epoch": 1.7095460415218038,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006632402900566207,
      "loss": 0.599,
      "step": 34420
    },
    {
      "epoch": 1.7100427138174232,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006632005562729711,
      "loss": 0.5795,
      "step": 34430
    },
    {
      "epoch": 1.7105393861130427,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0006631608224893215,
      "loss": 0.5899,
      "step": 34440
    },
    {
      "epoch": 1.711036058408662,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0006631210887056721,
      "loss": 0.5833,
      "step": 34450
    },
    {
      "epoch": 1.7115327307042814,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006630813549220225,
      "loss": 0.5888,
      "step": 34460
    },
    {
      "epoch": 1.7120294029999008,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0006630416211383729,
      "loss": 0.5978,
      "step": 34470
    },
    {
      "epoch": 1.71252607529552,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006630018873547234,
      "loss": 0.5993,
      "step": 34480
    },
    {
      "epoch": 1.7130227475911393,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0006629621535710738,
      "loss": 0.5815,
      "step": 34490
    },
    {
      "epoch": 1.7135194198867587,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0006629224197874244,
      "loss": 0.5956,
      "step": 34500
    },
    {
      "epoch": 1.7140160921823782,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006628826860037747,
      "loss": 0.5933,
      "step": 34510
    },
    {
      "epoch": 1.7145127644779974,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006628429522201252,
      "loss": 0.5888,
      "step": 34520
    },
    {
      "epoch": 1.7150094367736166,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0006628032184364757,
      "loss": 0.5999,
      "step": 34530
    },
    {
      "epoch": 1.715506109069236,
      "grad_norm": 0.162109375,
      "learning_rate": 0.000662763484652826,
      "loss": 0.6141,
      "step": 34540
    },
    {
      "epoch": 1.7160027813648555,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006627237508691766,
      "loss": 0.5664,
      "step": 34550
    },
    {
      "epoch": 1.7164994536604747,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006626840170855271,
      "loss": 0.5732,
      "step": 34560
    },
    {
      "epoch": 1.7169961259560942,
      "grad_norm": 0.0849609375,
      "learning_rate": 0.0006626442833018774,
      "loss": 0.5897,
      "step": 34570
    },
    {
      "epoch": 1.7174927982517136,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006626045495182279,
      "loss": 0.6314,
      "step": 34580
    },
    {
      "epoch": 1.7179894705473329,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006625648157345783,
      "loss": 0.5981,
      "step": 34590
    },
    {
      "epoch": 1.718486142842952,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006625250819509288,
      "loss": 0.6238,
      "step": 34600
    },
    {
      "epoch": 1.7189828151385715,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006624853481672793,
      "loss": 0.5775,
      "step": 34610
    },
    {
      "epoch": 1.719479487434191,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006624456143836297,
      "loss": 0.5957,
      "step": 34620
    },
    {
      "epoch": 1.7199761597298102,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006624058805999801,
      "loss": 0.6131,
      "step": 34630
    },
    {
      "epoch": 1.7204728320254297,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006623661468163306,
      "loss": 0.6022,
      "step": 34640
    },
    {
      "epoch": 1.7209695043210491,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006623264130326811,
      "loss": 0.601,
      "step": 34650
    },
    {
      "epoch": 1.7214661766166683,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006622866792490316,
      "loss": 0.594,
      "step": 34660
    },
    {
      "epoch": 1.7219628489122876,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.000662246945465382,
      "loss": 0.5892,
      "step": 34670
    },
    {
      "epoch": 1.722459521207907,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006622072116817324,
      "loss": 0.5817,
      "step": 34680
    },
    {
      "epoch": 1.7229561935035265,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0006621674778980829,
      "loss": 0.6195,
      "step": 34690
    },
    {
      "epoch": 1.7234528657991457,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006621277441144333,
      "loss": 0.5867,
      "step": 34700
    },
    {
      "epoch": 1.723949538094765,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006620880103307838,
      "loss": 0.6086,
      "step": 34710
    },
    {
      "epoch": 1.7244462103903844,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006620482765471343,
      "loss": 0.5925,
      "step": 34720
    },
    {
      "epoch": 1.7249428826860038,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0006620085427634846,
      "loss": 0.6208,
      "step": 34730
    },
    {
      "epoch": 1.725439554981623,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0006619688089798351,
      "loss": 0.6107,
      "step": 34740
    },
    {
      "epoch": 1.7259362272772425,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006619290751961857,
      "loss": 0.5579,
      "step": 34750
    },
    {
      "epoch": 1.726432899572862,
      "grad_norm": 0.115234375,
      "learning_rate": 0.000661889341412536,
      "loss": 0.5842,
      "step": 34760
    },
    {
      "epoch": 1.7269295718684812,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006618496076288865,
      "loss": 0.5636,
      "step": 34770
    },
    {
      "epoch": 1.7274262441641004,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006618098738452369,
      "loss": 0.6168,
      "step": 34780
    },
    {
      "epoch": 1.7279229164597198,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006617701400615874,
      "loss": 0.5637,
      "step": 34790
    },
    {
      "epoch": 1.7284195887553393,
      "grad_norm": 0.083984375,
      "learning_rate": 0.0006617304062779379,
      "loss": 0.5769,
      "step": 34800
    },
    {
      "epoch": 1.7289162610509585,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0006616906724942883,
      "loss": 0.6049,
      "step": 34810
    },
    {
      "epoch": 1.729412933346578,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006616509387106388,
      "loss": 0.5878,
      "step": 34820
    },
    {
      "epoch": 1.7299096056421974,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006616112049269892,
      "loss": 0.5919,
      "step": 34830
    },
    {
      "epoch": 1.7304062779378167,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0006615714711433396,
      "loss": 0.5782,
      "step": 34840
    },
    {
      "epoch": 1.7309029502334359,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0006615317373596902,
      "loss": 0.634,
      "step": 34850
    },
    {
      "epoch": 1.7313996225290553,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006614920035760406,
      "loss": 0.5835,
      "step": 34860
    },
    {
      "epoch": 1.7318962948246748,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.000661452269792391,
      "loss": 0.6219,
      "step": 34870
    },
    {
      "epoch": 1.732392967120294,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006614125360087415,
      "loss": 0.5947,
      "step": 34880
    },
    {
      "epoch": 1.7328896394159132,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006613728022250919,
      "loss": 0.59,
      "step": 34890
    },
    {
      "epoch": 1.7333863117115327,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0006613330684414424,
      "loss": 0.6176,
      "step": 34900
    },
    {
      "epoch": 1.7338829840071521,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0006612933346577929,
      "loss": 0.619,
      "step": 34910
    },
    {
      "epoch": 1.7343796563027714,
      "grad_norm": 0.0869140625,
      "learning_rate": 0.0006612536008741432,
      "loss": 0.5682,
      "step": 34920
    },
    {
      "epoch": 1.7348763285983908,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006612138670904937,
      "loss": 0.5862,
      "step": 34930
    },
    {
      "epoch": 1.7353730008940103,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006611741333068442,
      "loss": 0.5935,
      "step": 34940
    },
    {
      "epoch": 1.7358696731896295,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0006611343995231947,
      "loss": 0.5896,
      "step": 34950
    },
    {
      "epoch": 1.7363663454852487,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0006610946657395451,
      "loss": 0.5667,
      "step": 34960
    },
    {
      "epoch": 1.7368630177808682,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0006610549319558955,
      "loss": 0.6185,
      "step": 34970
    },
    {
      "epoch": 1.7373596900764876,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.000661015198172246,
      "loss": 0.5739,
      "step": 34980
    },
    {
      "epoch": 1.7378563623721068,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006609754643885964,
      "loss": 0.5968,
      "step": 34990
    },
    {
      "epoch": 1.7383530346677263,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006609357306049468,
      "loss": 0.6268,
      "step": 35000
    },
    {
      "epoch": 1.7388497069633457,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006608959968212974,
      "loss": 0.6147,
      "step": 35010
    },
    {
      "epoch": 1.739346379258965,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006608562630376478,
      "loss": 0.577,
      "step": 35020
    },
    {
      "epoch": 1.7398430515545842,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006608165292539982,
      "loss": 0.601,
      "step": 35030
    },
    {
      "epoch": 1.7403397238502036,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0006607767954703487,
      "loss": 0.6041,
      "step": 35040
    },
    {
      "epoch": 1.740836396145823,
      "grad_norm": 0.08642578125,
      "learning_rate": 0.0006607370616866992,
      "loss": 0.581,
      "step": 35050
    },
    {
      "epoch": 1.7413330684414423,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006606973279030496,
      "loss": 0.5901,
      "step": 35060
    },
    {
      "epoch": 1.7418297407370615,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006606575941194001,
      "loss": 0.6036,
      "step": 35070
    },
    {
      "epoch": 1.742326413032681,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006606178603357505,
      "loss": 0.6168,
      "step": 35080
    },
    {
      "epoch": 1.7428230853283004,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.0006605781265521009,
      "loss": 0.6085,
      "step": 35090
    },
    {
      "epoch": 1.7433197576239197,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006605383927684515,
      "loss": 0.5746,
      "step": 35100
    },
    {
      "epoch": 1.7438164299195391,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0006604986589848019,
      "loss": 0.581,
      "step": 35110
    },
    {
      "epoch": 1.7443131022151586,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0006604589252011523,
      "loss": 0.5806,
      "step": 35120
    },
    {
      "epoch": 1.7448097745107778,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006604191914175028,
      "loss": 0.5574,
      "step": 35130
    },
    {
      "epoch": 1.745306446806397,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0006603794576338532,
      "loss": 0.6143,
      "step": 35140
    },
    {
      "epoch": 1.7458031191020165,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006603397238502036,
      "loss": 0.5985,
      "step": 35150
    },
    {
      "epoch": 1.746299791397636,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0006602999900665542,
      "loss": 0.6048,
      "step": 35160
    },
    {
      "epoch": 1.7467964636932551,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006602602562829046,
      "loss": 0.5965,
      "step": 35170
    },
    {
      "epoch": 1.7472931359888746,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.000660220522499255,
      "loss": 0.5958,
      "step": 35180
    },
    {
      "epoch": 1.747789808284494,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006601807887156054,
      "loss": 0.607,
      "step": 35190
    },
    {
      "epoch": 1.7482864805801133,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.000660141054931956,
      "loss": 0.5923,
      "step": 35200
    },
    {
      "epoch": 1.7487831528757325,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006601013211483064,
      "loss": 0.6049,
      "step": 35210
    },
    {
      "epoch": 1.749279825171352,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006600615873646568,
      "loss": 0.6206,
      "step": 35220
    },
    {
      "epoch": 1.7497764974669714,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0006600218535810073,
      "loss": 0.6048,
      "step": 35230
    },
    {
      "epoch": 1.7502731697625906,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006599821197973577,
      "loss": 0.6114,
      "step": 35240
    },
    {
      "epoch": 1.7507698420582098,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0006599423860137081,
      "loss": 0.5983,
      "step": 35250
    },
    {
      "epoch": 1.7512665143538293,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006599026522300587,
      "loss": 0.6022,
      "step": 35260
    },
    {
      "epoch": 1.7517631866494487,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006598629184464091,
      "loss": 0.616,
      "step": 35270
    },
    {
      "epoch": 1.752259858945068,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006598231846627595,
      "loss": 0.5992,
      "step": 35280
    },
    {
      "epoch": 1.7527565312406874,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.00065978345087911,
      "loss": 0.5907,
      "step": 35290
    },
    {
      "epoch": 1.7532532035363069,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0006597437170954604,
      "loss": 0.5911,
      "step": 35300
    },
    {
      "epoch": 1.753749875831926,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006597039833118109,
      "loss": 0.5878,
      "step": 35310
    },
    {
      "epoch": 1.7542465481275453,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006596642495281614,
      "loss": 0.58,
      "step": 35320
    },
    {
      "epoch": 1.7547432204231648,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0006596245157445118,
      "loss": 0.6123,
      "step": 35330
    },
    {
      "epoch": 1.7552398927187842,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0006595847819608622,
      "loss": 0.5974,
      "step": 35340
    },
    {
      "epoch": 1.7557365650144034,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006595450481772127,
      "loss": 0.5911,
      "step": 35350
    },
    {
      "epoch": 1.756233237310023,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006595053143935632,
      "loss": 0.5947,
      "step": 35360
    },
    {
      "epoch": 1.7567299096056423,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006594655806099136,
      "loss": 0.5844,
      "step": 35370
    },
    {
      "epoch": 1.7572265819012616,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.000659425846826264,
      "loss": 0.5914,
      "step": 35380
    },
    {
      "epoch": 1.7577232541968808,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006593861130426145,
      "loss": 0.5856,
      "step": 35390
    },
    {
      "epoch": 1.7582199264925003,
      "grad_norm": 0.0859375,
      "learning_rate": 0.000659346379258965,
      "loss": 0.6051,
      "step": 35400
    },
    {
      "epoch": 1.7587165987881197,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006593066454753154,
      "loss": 0.6096,
      "step": 35410
    },
    {
      "epoch": 1.759213271083739,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0006592669116916659,
      "loss": 0.5855,
      "step": 35420
    },
    {
      "epoch": 1.7597099433793582,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006592271779080163,
      "loss": 0.6032,
      "step": 35430
    },
    {
      "epoch": 1.7602066156749776,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006591874441243667,
      "loss": 0.5703,
      "step": 35440
    },
    {
      "epoch": 1.760703287970597,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006591477103407172,
      "loss": 0.596,
      "step": 35450
    },
    {
      "epoch": 1.7611999602662163,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006591079765570677,
      "loss": 0.5854,
      "step": 35460
    },
    {
      "epoch": 1.7616966325618357,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0006590682427734181,
      "loss": 0.5599,
      "step": 35470
    },
    {
      "epoch": 1.7621933048574552,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006590285089897686,
      "loss": 0.6016,
      "step": 35480
    },
    {
      "epoch": 1.7626899771530744,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.000658988775206119,
      "loss": 0.597,
      "step": 35490
    },
    {
      "epoch": 1.7631866494486936,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006589490414224694,
      "loss": 0.6352,
      "step": 35500
    },
    {
      "epoch": 1.763683321744313,
      "grad_norm": 0.09375,
      "learning_rate": 0.00065890930763882,
      "loss": 0.5891,
      "step": 35510
    },
    {
      "epoch": 1.7641799940399325,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0006588695738551704,
      "loss": 0.5808,
      "step": 35520
    },
    {
      "epoch": 1.7646766663355518,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006588298400715208,
      "loss": 0.585,
      "step": 35530
    },
    {
      "epoch": 1.7651733386311712,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006587901062878713,
      "loss": 0.5931,
      "step": 35540
    },
    {
      "epoch": 1.7656700109267907,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006587503725042217,
      "loss": 0.5712,
      "step": 35550
    },
    {
      "epoch": 1.7661666832224099,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006587106387205723,
      "loss": 0.5875,
      "step": 35560
    },
    {
      "epoch": 1.766663355518029,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0006586709049369226,
      "loss": 0.5762,
      "step": 35570
    },
    {
      "epoch": 1.7671600278136486,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006586311711532731,
      "loss": 0.586,
      "step": 35580
    },
    {
      "epoch": 1.767656700109268,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0006585914373696236,
      "loss": 0.6036,
      "step": 35590
    },
    {
      "epoch": 1.7681533724048872,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006585517035859739,
      "loss": 0.592,
      "step": 35600
    },
    {
      "epoch": 1.7686500447005065,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006585119698023245,
      "loss": 0.5644,
      "step": 35610
    },
    {
      "epoch": 1.769146716996126,
      "grad_norm": 0.12890625,
      "learning_rate": 0.000658472236018675,
      "loss": 0.579,
      "step": 35620
    },
    {
      "epoch": 1.7696433892917454,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006584325022350253,
      "loss": 0.5832,
      "step": 35630
    },
    {
      "epoch": 1.7701400615873646,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006583927684513758,
      "loss": 0.5951,
      "step": 35640
    },
    {
      "epoch": 1.770636733882984,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006583530346677262,
      "loss": 0.5847,
      "step": 35650
    },
    {
      "epoch": 1.7711334061786035,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0006583133008840767,
      "loss": 0.5947,
      "step": 35660
    },
    {
      "epoch": 1.7716300784742227,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0006582735671004272,
      "loss": 0.5862,
      "step": 35670
    },
    {
      "epoch": 1.772126750769842,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0006582338333167776,
      "loss": 0.6173,
      "step": 35680
    },
    {
      "epoch": 1.7726234230654614,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006581940995331281,
      "loss": 0.5851,
      "step": 35690
    },
    {
      "epoch": 1.7731200953610808,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006581543657494785,
      "loss": 0.5829,
      "step": 35700
    },
    {
      "epoch": 1.7736167676567,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.000658114631965829,
      "loss": 0.5852,
      "step": 35710
    },
    {
      "epoch": 1.7741134399523193,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006580748981821795,
      "loss": 0.5783,
      "step": 35720
    },
    {
      "epoch": 1.774610112247939,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006580351643985299,
      "loss": 0.5801,
      "step": 35730
    },
    {
      "epoch": 1.7751067845435582,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006579954306148803,
      "loss": 0.5973,
      "step": 35740
    },
    {
      "epoch": 1.7756034568391774,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0006579556968312308,
      "loss": 0.611,
      "step": 35750
    },
    {
      "epoch": 1.7761001291347969,
      "grad_norm": 0.08740234375,
      "learning_rate": 0.0006579159630475812,
      "loss": 0.5763,
      "step": 35760
    },
    {
      "epoch": 1.7765968014304163,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006578762292639317,
      "loss": 0.5711,
      "step": 35770
    },
    {
      "epoch": 1.7770934737260355,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006578364954802822,
      "loss": 0.6111,
      "step": 35780
    },
    {
      "epoch": 1.7775901460216548,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006577967616966325,
      "loss": 0.5693,
      "step": 35790
    },
    {
      "epoch": 1.7780868183172742,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.000657757027912983,
      "loss": 0.5779,
      "step": 35800
    },
    {
      "epoch": 1.7785834906128937,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006577172941293336,
      "loss": 0.5906,
      "step": 35810
    },
    {
      "epoch": 1.779080162908513,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006576775603456839,
      "loss": 0.5878,
      "step": 35820
    },
    {
      "epoch": 1.7795768352041323,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006576378265620344,
      "loss": 0.5832,
      "step": 35830
    },
    {
      "epoch": 1.7800735074997518,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006575980927783848,
      "loss": 0.5882,
      "step": 35840
    },
    {
      "epoch": 1.780570179795371,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006575583589947353,
      "loss": 0.6045,
      "step": 35850
    },
    {
      "epoch": 1.7810668520909902,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006575186252110858,
      "loss": 0.5789,
      "step": 35860
    },
    {
      "epoch": 1.7815635243866097,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0006574788914274362,
      "loss": 0.5812,
      "step": 35870
    },
    {
      "epoch": 1.7820601966822291,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006574391576437867,
      "loss": 0.5801,
      "step": 35880
    },
    {
      "epoch": 1.7825568689778484,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006573994238601371,
      "loss": 0.5915,
      "step": 35890
    },
    {
      "epoch": 1.7830535412734676,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0006573596900764875,
      "loss": 0.5687,
      "step": 35900
    },
    {
      "epoch": 1.7835502135690873,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006573199562928381,
      "loss": 0.5588,
      "step": 35910
    },
    {
      "epoch": 1.7840468858647065,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006572802225091885,
      "loss": 0.579,
      "step": 35920
    },
    {
      "epoch": 1.7845435581603257,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006572404887255389,
      "loss": 0.6217,
      "step": 35930
    },
    {
      "epoch": 1.7850402304559452,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006572007549418894,
      "loss": 0.5919,
      "step": 35940
    },
    {
      "epoch": 1.7855369027515646,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006571610211582398,
      "loss": 0.5992,
      "step": 35950
    },
    {
      "epoch": 1.7860335750471839,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006571212873745903,
      "loss": 0.5961,
      "step": 35960
    },
    {
      "epoch": 1.786530247342803,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0006570815535909408,
      "loss": 0.6127,
      "step": 35970
    },
    {
      "epoch": 1.7870269196384225,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006570418198072911,
      "loss": 0.5762,
      "step": 35980
    },
    {
      "epoch": 1.787523591934042,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006570020860236416,
      "loss": 0.5988,
      "step": 35990
    },
    {
      "epoch": 1.7880202642296612,
      "grad_norm": 0.0869140625,
      "learning_rate": 0.0006569623522399921,
      "loss": 0.581,
      "step": 36000
    },
    {
      "epoch": 1.7885169365252807,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006569226184563426,
      "loss": 0.5811,
      "step": 36010
    },
    {
      "epoch": 1.7890136088209,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000656882884672693,
      "loss": 0.5708,
      "step": 36020
    },
    {
      "epoch": 1.7895102811165193,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006568431508890434,
      "loss": 0.5819,
      "step": 36030
    },
    {
      "epoch": 1.7900069534121386,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006568034171053939,
      "loss": 0.5852,
      "step": 36040
    },
    {
      "epoch": 1.790503625707758,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006567636833217443,
      "loss": 0.6267,
      "step": 36050
    },
    {
      "epoch": 1.7910002980033775,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006567239495380948,
      "loss": 0.5895,
      "step": 36060
    },
    {
      "epoch": 1.7914969702989967,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006566842157544453,
      "loss": 0.599,
      "step": 36070
    },
    {
      "epoch": 1.791993642594616,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006566444819707957,
      "loss": 0.5701,
      "step": 36080
    },
    {
      "epoch": 1.7924903148902356,
      "grad_norm": 0.125,
      "learning_rate": 0.0006566047481871461,
      "loss": 0.5955,
      "step": 36090
    },
    {
      "epoch": 1.7929869871858548,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006565650144034966,
      "loss": 0.5917,
      "step": 36100
    },
    {
      "epoch": 1.793483659481474,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006565252806198471,
      "loss": 0.5633,
      "step": 36110
    },
    {
      "epoch": 1.7939803317770935,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006564855468361975,
      "loss": 0.5555,
      "step": 36120
    },
    {
      "epoch": 1.794477004072713,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.000656445813052548,
      "loss": 0.6074,
      "step": 36130
    },
    {
      "epoch": 1.7949736763683322,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006564060792688984,
      "loss": 0.6201,
      "step": 36140
    },
    {
      "epoch": 1.7954703486639514,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0006563663454852488,
      "loss": 0.586,
      "step": 36150
    },
    {
      "epoch": 1.7959670209595708,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006563266117015994,
      "loss": 0.5746,
      "step": 36160
    },
    {
      "epoch": 1.7964636932551903,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006562868779179498,
      "loss": 0.5907,
      "step": 36170
    },
    {
      "epoch": 1.7969603655508095,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006562471441343002,
      "loss": 0.5704,
      "step": 36180
    },
    {
      "epoch": 1.797457037846429,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006562074103506507,
      "loss": 0.6184,
      "step": 36190
    },
    {
      "epoch": 1.7979537101420484,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006561676765670011,
      "loss": 0.6149,
      "step": 36200
    },
    {
      "epoch": 1.7984503824376676,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006561279427833516,
      "loss": 0.5642,
      "step": 36210
    },
    {
      "epoch": 1.7989470547332869,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006560882089997021,
      "loss": 0.5813,
      "step": 36220
    },
    {
      "epoch": 1.7994437270289063,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006560484752160525,
      "loss": 0.612,
      "step": 36230
    },
    {
      "epoch": 1.7999403993245258,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006560087414324029,
      "loss": 0.5886,
      "step": 36240
    },
    {
      "epoch": 1.800437071620145,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006559690076487533,
      "loss": 0.6051,
      "step": 36250
    },
    {
      "epoch": 1.8009337439157642,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006559292738651039,
      "loss": 0.5852,
      "step": 36260
    },
    {
      "epoch": 1.801430416211384,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006558895400814543,
      "loss": 0.5926,
      "step": 36270
    },
    {
      "epoch": 1.8019270885070031,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006558498062978047,
      "loss": 0.604,
      "step": 36280
    },
    {
      "epoch": 1.8024237608026223,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006558100725141552,
      "loss": 0.609,
      "step": 36290
    },
    {
      "epoch": 1.8029204330982418,
      "grad_norm": 0.08544921875,
      "learning_rate": 0.0006557703387305056,
      "loss": 0.5675,
      "step": 36300
    },
    {
      "epoch": 1.8034171053938612,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.000655730604946856,
      "loss": 0.5771,
      "step": 36310
    },
    {
      "epoch": 1.8039137776894805,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006556908711632066,
      "loss": 0.5779,
      "step": 36320
    },
    {
      "epoch": 1.8044104499850997,
      "grad_norm": 0.095703125,
      "learning_rate": 0.000655651137379557,
      "loss": 0.6223,
      "step": 36330
    },
    {
      "epoch": 1.8049071222807191,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006556114035959074,
      "loss": 0.5769,
      "step": 36340
    },
    {
      "epoch": 1.8054037945763386,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0006555716698122579,
      "loss": 0.5798,
      "step": 36350
    },
    {
      "epoch": 1.8059004668719578,
      "grad_norm": 0.08154296875,
      "learning_rate": 0.0006555319360286084,
      "loss": 0.5818,
      "step": 36360
    },
    {
      "epoch": 1.8063971391675773,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0006554922022449588,
      "loss": 0.6004,
      "step": 36370
    },
    {
      "epoch": 1.8068938114631967,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006554524684613093,
      "loss": 0.597,
      "step": 36380
    },
    {
      "epoch": 1.807390483758816,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006554127346776597,
      "loss": 0.5771,
      "step": 36390
    },
    {
      "epoch": 1.8078871560544352,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0006553730008940101,
      "loss": 0.5779,
      "step": 36400
    },
    {
      "epoch": 1.8083838283500546,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006553332671103607,
      "loss": 0.596,
      "step": 36410
    },
    {
      "epoch": 1.808880500645674,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006552935333267111,
      "loss": 0.6053,
      "step": 36420
    },
    {
      "epoch": 1.8093771729412933,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006552537995430615,
      "loss": 0.5661,
      "step": 36430
    },
    {
      "epoch": 1.8098738452369125,
      "grad_norm": 0.08203125,
      "learning_rate": 0.0006552140657594119,
      "loss": 0.5906,
      "step": 36440
    },
    {
      "epoch": 1.8103705175325322,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006551743319757624,
      "loss": 0.5939,
      "step": 36450
    },
    {
      "epoch": 1.8108671898281514,
      "grad_norm": 0.146484375,
      "learning_rate": 0.000655134598192113,
      "loss": 0.5859,
      "step": 36460
    },
    {
      "epoch": 1.8113638621237707,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006550948644084633,
      "loss": 0.5821,
      "step": 36470
    },
    {
      "epoch": 1.81186053441939,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006550551306248138,
      "loss": 0.5904,
      "step": 36480
    },
    {
      "epoch": 1.8123572067150095,
      "grad_norm": 0.087890625,
      "learning_rate": 0.0006550153968411643,
      "loss": 0.5741,
      "step": 36490
    },
    {
      "epoch": 1.8128538790106288,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006549756630575146,
      "loss": 0.6147,
      "step": 36500
    },
    {
      "epoch": 1.813350551306248,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0006549359292738652,
      "loss": 0.5682,
      "step": 36510
    },
    {
      "epoch": 1.8138472236018675,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006548961954902156,
      "loss": 0.6279,
      "step": 36520
    },
    {
      "epoch": 1.814343895897487,
      "grad_norm": 0.126953125,
      "learning_rate": 0.000654856461706566,
      "loss": 0.5933,
      "step": 36530
    },
    {
      "epoch": 1.8148405681931061,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006548167279229165,
      "loss": 0.5712,
      "step": 36540
    },
    {
      "epoch": 1.8153372404887256,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006547769941392669,
      "loss": 0.5993,
      "step": 36550
    },
    {
      "epoch": 1.815833912784345,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006547372603556173,
      "loss": 0.6267,
      "step": 36560
    },
    {
      "epoch": 1.8163305850799643,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006546975265719679,
      "loss": 0.5799,
      "step": 36570
    },
    {
      "epoch": 1.8168272573755835,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006546577927883183,
      "loss": 0.6024,
      "step": 36580
    },
    {
      "epoch": 1.817323929671203,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006546180590046688,
      "loss": 0.6024,
      "step": 36590
    },
    {
      "epoch": 1.8178206019668224,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006545783252210192,
      "loss": 0.5906,
      "step": 36600
    },
    {
      "epoch": 1.8183172742624416,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006545385914373696,
      "loss": 0.5762,
      "step": 36610
    },
    {
      "epoch": 1.8188139465580608,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0006544988576537202,
      "loss": 0.5811,
      "step": 36620
    },
    {
      "epoch": 1.8193106188536805,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006544591238700705,
      "loss": 0.5927,
      "step": 36630
    },
    {
      "epoch": 1.8198072911492997,
      "grad_norm": 0.08447265625,
      "learning_rate": 0.000654419390086421,
      "loss": 0.5813,
      "step": 36640
    },
    {
      "epoch": 1.820303963444919,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006543796563027715,
      "loss": 0.5863,
      "step": 36650
    },
    {
      "epoch": 1.8208006357405384,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006543399225191218,
      "loss": 0.5647,
      "step": 36660
    },
    {
      "epoch": 1.8212973080361579,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0006543001887354724,
      "loss": 0.5953,
      "step": 36670
    },
    {
      "epoch": 1.821793980331777,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0006542604549518229,
      "loss": 0.5822,
      "step": 36680
    },
    {
      "epoch": 1.8222906526273963,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006542207211681732,
      "loss": 0.593,
      "step": 36690
    },
    {
      "epoch": 1.8227873249230158,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0006541809873845237,
      "loss": 0.5887,
      "step": 36700
    },
    {
      "epoch": 1.8232839972186352,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006541412536008741,
      "loss": 0.6251,
      "step": 36710
    },
    {
      "epoch": 1.8237806695142544,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006541015198172246,
      "loss": 0.5714,
      "step": 36720
    },
    {
      "epoch": 1.8242773418098739,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006540617860335751,
      "loss": 0.5708,
      "step": 36730
    },
    {
      "epoch": 1.8247740141054933,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006540220522499255,
      "loss": 0.5896,
      "step": 36740
    },
    {
      "epoch": 1.8252706864011126,
      "grad_norm": 0.09765625,
      "learning_rate": 0.000653982318466276,
      "loss": 0.578,
      "step": 36750
    },
    {
      "epoch": 1.8257673586967318,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0006539425846826264,
      "loss": 0.6018,
      "step": 36760
    },
    {
      "epoch": 1.8262640309923512,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0006539028508989769,
      "loss": 0.6012,
      "step": 36770
    },
    {
      "epoch": 1.8267607032879707,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0006538631171153274,
      "loss": 0.6244,
      "step": 36780
    },
    {
      "epoch": 1.82725737558359,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006538233833316778,
      "loss": 0.5579,
      "step": 36790
    },
    {
      "epoch": 1.8277540478792091,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006537836495480282,
      "loss": 0.6142,
      "step": 36800
    },
    {
      "epoch": 1.8282507201748288,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0006537439157643787,
      "loss": 0.5613,
      "step": 36810
    },
    {
      "epoch": 1.828747392470448,
      "grad_norm": 0.08642578125,
      "learning_rate": 0.0006537041819807292,
      "loss": 0.6049,
      "step": 36820
    },
    {
      "epoch": 1.8292440647660673,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006536644481970796,
      "loss": 0.5672,
      "step": 36830
    },
    {
      "epoch": 1.8297407370616867,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0006536247144134301,
      "loss": 0.5831,
      "step": 36840
    },
    {
      "epoch": 1.8302374093573062,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0006535849806297804,
      "loss": 0.5675,
      "step": 36850
    },
    {
      "epoch": 1.8307340816529254,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006535452468461309,
      "loss": 0.6041,
      "step": 36860
    },
    {
      "epoch": 1.8312307539485446,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006535055130624815,
      "loss": 0.5579,
      "step": 36870
    },
    {
      "epoch": 1.831727426244164,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0006534657792788319,
      "loss": 0.5693,
      "step": 36880
    },
    {
      "epoch": 1.8322240985397835,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006534260454951823,
      "loss": 0.5783,
      "step": 36890
    },
    {
      "epoch": 1.8327207708354027,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006533863117115327,
      "loss": 0.5867,
      "step": 36900
    },
    {
      "epoch": 1.8332174431310222,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006533465779278832,
      "loss": 0.5905,
      "step": 36910
    },
    {
      "epoch": 1.8337141154266416,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006533068441442337,
      "loss": 0.6061,
      "step": 36920
    },
    {
      "epoch": 1.8342107877222609,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006532671103605841,
      "loss": 0.6096,
      "step": 36930
    },
    {
      "epoch": 1.83470746001788,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006532273765769346,
      "loss": 0.576,
      "step": 36940
    },
    {
      "epoch": 1.8352041323134995,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.000653187642793285,
      "loss": 0.6109,
      "step": 36950
    },
    {
      "epoch": 1.835700804609119,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006531479090096354,
      "loss": 0.568,
      "step": 36960
    },
    {
      "epoch": 1.8361974769047382,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.000653108175225986,
      "loss": 0.5775,
      "step": 36970
    },
    {
      "epoch": 1.8366941492003575,
      "grad_norm": 0.08447265625,
      "learning_rate": 0.0006530684414423364,
      "loss": 0.5969,
      "step": 36980
    },
    {
      "epoch": 1.837190821495977,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006530287076586868,
      "loss": 0.582,
      "step": 36990
    },
    {
      "epoch": 1.8376874937915963,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0006529889738750373,
      "loss": 0.5714,
      "step": 37000
    },
    {
      "epoch": 1.8381841660872156,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006529492400913877,
      "loss": 0.609,
      "step": 37010
    },
    {
      "epoch": 1.838680838382835,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006529095063077382,
      "loss": 0.6116,
      "step": 37020
    },
    {
      "epoch": 1.8391775106784545,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0006528697725240887,
      "loss": 0.6088,
      "step": 37030
    },
    {
      "epoch": 1.8396741829740737,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006528300387404391,
      "loss": 0.6042,
      "step": 37040
    },
    {
      "epoch": 1.840170855269693,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0006527903049567895,
      "loss": 0.6014,
      "step": 37050
    },
    {
      "epoch": 1.8406675275653124,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.00065275057117314,
      "loss": 0.5956,
      "step": 37060
    },
    {
      "epoch": 1.8411641998609318,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006527108373894905,
      "loss": 0.5895,
      "step": 37070
    },
    {
      "epoch": 1.841660872156551,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0006526711036058409,
      "loss": 0.6098,
      "step": 37080
    },
    {
      "epoch": 1.8421575444521705,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006526313698221914,
      "loss": 0.585,
      "step": 37090
    },
    {
      "epoch": 1.84265421674779,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0006525916360385418,
      "loss": 0.6035,
      "step": 37100
    },
    {
      "epoch": 1.8431508890434092,
      "grad_norm": 0.15625,
      "learning_rate": 0.0006525519022548922,
      "loss": 0.5677,
      "step": 37110
    },
    {
      "epoch": 1.8436475613390284,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006525121684712427,
      "loss": 0.5505,
      "step": 37120
    },
    {
      "epoch": 1.8441442336346479,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006524724346875932,
      "loss": 0.5833,
      "step": 37130
    },
    {
      "epoch": 1.8446409059302673,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006524327009039436,
      "loss": 0.5779,
      "step": 37140
    },
    {
      "epoch": 1.8451375782258865,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.000652392967120294,
      "loss": 0.5994,
      "step": 37150
    },
    {
      "epoch": 1.8456342505215058,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006523532333366445,
      "loss": 0.5936,
      "step": 37160
    },
    {
      "epoch": 1.8461309228171252,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.000652313499552995,
      "loss": 0.5973,
      "step": 37170
    },
    {
      "epoch": 1.8466275951127447,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0006522737657693454,
      "loss": 0.5972,
      "step": 37180
    },
    {
      "epoch": 1.8471242674083639,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006522340319856959,
      "loss": 0.6032,
      "step": 37190
    },
    {
      "epoch": 1.8476209397039833,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006521942982020463,
      "loss": 0.607,
      "step": 37200
    },
    {
      "epoch": 1.8481176119996028,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006521545644183967,
      "loss": 0.6153,
      "step": 37210
    },
    {
      "epoch": 1.848614284295222,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006521148306347473,
      "loss": 0.5763,
      "step": 37220
    },
    {
      "epoch": 1.8491109565908412,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006520750968510977,
      "loss": 0.5736,
      "step": 37230
    },
    {
      "epoch": 1.8496076288864607,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006520353630674481,
      "loss": 0.6079,
      "step": 37240
    },
    {
      "epoch": 1.8501043011820801,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006519956292837986,
      "loss": 0.5812,
      "step": 37250
    },
    {
      "epoch": 1.8506009734776994,
      "grad_norm": 0.146484375,
      "learning_rate": 0.000651955895500149,
      "loss": 0.6019,
      "step": 37260
    },
    {
      "epoch": 1.8510976457733188,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006519161617164995,
      "loss": 0.6007,
      "step": 37270
    },
    {
      "epoch": 1.8515943180689383,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.00065187642793285,
      "loss": 0.5725,
      "step": 37280
    },
    {
      "epoch": 1.8520909903645575,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006518366941492004,
      "loss": 0.5952,
      "step": 37290
    },
    {
      "epoch": 1.8525876626601767,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006517969603655508,
      "loss": 0.5955,
      "step": 37300
    },
    {
      "epoch": 1.8530843349557962,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006517572265819012,
      "loss": 0.5889,
      "step": 37310
    },
    {
      "epoch": 1.8535810072514156,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0006517174927982518,
      "loss": 0.5997,
      "step": 37320
    },
    {
      "epoch": 1.8540776795470348,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0006516777590146023,
      "loss": 0.5642,
      "step": 37330
    },
    {
      "epoch": 1.854574351842654,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0006516380252309526,
      "loss": 0.595,
      "step": 37340
    },
    {
      "epoch": 1.8550710241382735,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0006515982914473031,
      "loss": 0.5922,
      "step": 37350
    },
    {
      "epoch": 1.855567696433893,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006515585576636536,
      "loss": 0.5832,
      "step": 37360
    },
    {
      "epoch": 1.8560643687295122,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.000651518823880004,
      "loss": 0.5978,
      "step": 37370
    },
    {
      "epoch": 1.8565610410251316,
      "grad_norm": 0.0849609375,
      "learning_rate": 0.0006514790900963545,
      "loss": 0.573,
      "step": 37380
    },
    {
      "epoch": 1.857057713320751,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0006514393563127049,
      "loss": 0.5722,
      "step": 37390
    },
    {
      "epoch": 1.8575543856163703,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0006513996225290553,
      "loss": 0.6139,
      "step": 37400
    },
    {
      "epoch": 1.8580510579119895,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006513598887454058,
      "loss": 0.5884,
      "step": 37410
    },
    {
      "epoch": 1.858547730207609,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0006513201549617563,
      "loss": 0.6201,
      "step": 37420
    },
    {
      "epoch": 1.8590444025032284,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006512804211781067,
      "loss": 0.5874,
      "step": 37430
    },
    {
      "epoch": 1.8595410747988477,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006512406873944572,
      "loss": 0.6012,
      "step": 37440
    },
    {
      "epoch": 1.8600377470944671,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006512009536108076,
      "loss": 0.5957,
      "step": 37450
    },
    {
      "epoch": 1.8605344193900866,
      "grad_norm": 0.1171875,
      "learning_rate": 0.000651161219827158,
      "loss": 0.5916,
      "step": 37460
    },
    {
      "epoch": 1.8610310916857058,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006511214860435086,
      "loss": 0.586,
      "step": 37470
    },
    {
      "epoch": 1.861527763981325,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.000651081752259859,
      "loss": 0.569,
      "step": 37480
    },
    {
      "epoch": 1.8620244362769445,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006510420184762095,
      "loss": 0.5574,
      "step": 37490
    },
    {
      "epoch": 1.862521108572564,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006510022846925598,
      "loss": 0.5899,
      "step": 37500
    },
    {
      "epoch": 1.8630177808681831,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006509625509089103,
      "loss": 0.5996,
      "step": 37510
    },
    {
      "epoch": 1.8635144531638024,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006509228171252609,
      "loss": 0.6009,
      "step": 37520
    },
    {
      "epoch": 1.8640111254594218,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006508830833416112,
      "loss": 0.5804,
      "step": 37530
    },
    {
      "epoch": 1.8645077977550413,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006508433495579617,
      "loss": 0.6056,
      "step": 37540
    },
    {
      "epoch": 1.8650044700506605,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006508036157743122,
      "loss": 0.5867,
      "step": 37550
    },
    {
      "epoch": 1.86550114234628,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006507638819906625,
      "loss": 0.6001,
      "step": 37560
    },
    {
      "epoch": 1.8659978146418994,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.000650724148207013,
      "loss": 0.5841,
      "step": 37570
    },
    {
      "epoch": 1.8664944869375186,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006506844144233635,
      "loss": 0.5766,
      "step": 37580
    },
    {
      "epoch": 1.8669911592331379,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0006506446806397139,
      "loss": 0.5876,
      "step": 37590
    },
    {
      "epoch": 1.8674878315287573,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0006506049468560644,
      "loss": 0.5907,
      "step": 37600
    },
    {
      "epoch": 1.8679845038243768,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006505652130724148,
      "loss": 0.5754,
      "step": 37610
    },
    {
      "epoch": 1.868481176119996,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0006505254792887652,
      "loss": 0.5736,
      "step": 37620
    },
    {
      "epoch": 1.8689778484156154,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006504857455051158,
      "loss": 0.6151,
      "step": 37630
    },
    {
      "epoch": 1.8694745207112349,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006504460117214662,
      "loss": 0.5984,
      "step": 37640
    },
    {
      "epoch": 1.869971193006854,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006504062779378167,
      "loss": 0.6013,
      "step": 37650
    },
    {
      "epoch": 1.8704678653024733,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006503665441541671,
      "loss": 0.6051,
      "step": 37660
    },
    {
      "epoch": 1.8709645375980928,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0006503268103705176,
      "loss": 0.5964,
      "step": 37670
    },
    {
      "epoch": 1.8714612098937122,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006502870765868681,
      "loss": 0.5812,
      "step": 37680
    },
    {
      "epoch": 1.8719578821893315,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006502473428032185,
      "loss": 0.5946,
      "step": 37690
    },
    {
      "epoch": 1.8724545544849507,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006502076090195689,
      "loss": 0.5612,
      "step": 37700
    },
    {
      "epoch": 1.8729512267805701,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006501678752359194,
      "loss": 0.585,
      "step": 37710
    },
    {
      "epoch": 1.8734478990761896,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.0006501281414522697,
      "loss": 0.5948,
      "step": 37720
    },
    {
      "epoch": 1.8739445713718088,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0006500884076686203,
      "loss": 0.5773,
      "step": 37730
    },
    {
      "epoch": 1.8744412436674283,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006500486738849708,
      "loss": 0.5941,
      "step": 37740
    },
    {
      "epoch": 1.8749379159630477,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006500089401013211,
      "loss": 0.5943,
      "step": 37750
    },
    {
      "epoch": 1.875434588258667,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006499692063176716,
      "loss": 0.5959,
      "step": 37760
    },
    {
      "epoch": 1.8759312605542862,
      "grad_norm": 0.095703125,
      "learning_rate": 0.000649929472534022,
      "loss": 0.5773,
      "step": 37770
    },
    {
      "epoch": 1.8764279328499056,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006498897387503726,
      "loss": 0.5837,
      "step": 37780
    },
    {
      "epoch": 1.876924605145525,
      "grad_norm": 0.115234375,
      "learning_rate": 0.000649850004966723,
      "loss": 0.5888,
      "step": 37790
    },
    {
      "epoch": 1.8774212774411443,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006498102711830734,
      "loss": 0.6306,
      "step": 37800
    },
    {
      "epoch": 1.8779179497367637,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006497705373994239,
      "loss": 0.5537,
      "step": 37810
    },
    {
      "epoch": 1.8784146220323832,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006497308036157743,
      "loss": 0.5905,
      "step": 37820
    },
    {
      "epoch": 1.8789112943280024,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006496910698321248,
      "loss": 0.5726,
      "step": 37830
    },
    {
      "epoch": 1.8794079666236216,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006496513360484753,
      "loss": 0.6031,
      "step": 37840
    },
    {
      "epoch": 1.879904638919241,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0006496116022648257,
      "loss": 0.5986,
      "step": 37850
    },
    {
      "epoch": 1.8804013112148605,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006495718684811761,
      "loss": 0.5791,
      "step": 37860
    },
    {
      "epoch": 1.8808979835104798,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006495321346975267,
      "loss": 0.5831,
      "step": 37870
    },
    {
      "epoch": 1.881394655806099,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006494924009138771,
      "loss": 0.5692,
      "step": 37880
    },
    {
      "epoch": 1.8818913281017184,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006494526671302275,
      "loss": 0.58,
      "step": 37890
    },
    {
      "epoch": 1.882388000397338,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.000649412933346578,
      "loss": 0.5919,
      "step": 37900
    },
    {
      "epoch": 1.8828846726929571,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0006493731995629283,
      "loss": 0.6251,
      "step": 37910
    },
    {
      "epoch": 1.8833813449885766,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0006493334657792788,
      "loss": 0.579,
      "step": 37920
    },
    {
      "epoch": 1.883878017284196,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006492937319956294,
      "loss": 0.6264,
      "step": 37930
    },
    {
      "epoch": 1.8843746895798152,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006492539982119798,
      "loss": 0.5701,
      "step": 37940
    },
    {
      "epoch": 1.8848713618754345,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0006492142644283302,
      "loss": 0.604,
      "step": 37950
    },
    {
      "epoch": 1.885368034171054,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006491745306446807,
      "loss": 0.5774,
      "step": 37960
    },
    {
      "epoch": 1.8858647064666734,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006491347968610311,
      "loss": 0.5748,
      "step": 37970
    },
    {
      "epoch": 1.8863613787622926,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006490950630773816,
      "loss": 0.6001,
      "step": 37980
    },
    {
      "epoch": 1.886858051057912,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.000649055329293732,
      "loss": 0.6058,
      "step": 37990
    },
    {
      "epoch": 1.8873547233535315,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0006490155955100825,
      "loss": 0.5758,
      "step": 38000
    },
    {
      "epoch": 1.8878513956491507,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0006489758617264329,
      "loss": 0.5878,
      "step": 38010
    },
    {
      "epoch": 1.88834806794477,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006489361279427833,
      "loss": 0.5932,
      "step": 38020
    },
    {
      "epoch": 1.8888447402403894,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006488963941591339,
      "loss": 0.5892,
      "step": 38030
    },
    {
      "epoch": 1.8893414125360088,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006488566603754843,
      "loss": 0.5921,
      "step": 38040
    },
    {
      "epoch": 1.889838084831628,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006488169265918347,
      "loss": 0.5968,
      "step": 38050
    },
    {
      "epoch": 1.8903347571272473,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0006487771928081852,
      "loss": 0.5817,
      "step": 38060
    },
    {
      "epoch": 1.8908314294228667,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006487374590245356,
      "loss": 0.6205,
      "step": 38070
    },
    {
      "epoch": 1.8913281017184862,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006486977252408861,
      "loss": 0.5994,
      "step": 38080
    },
    {
      "epoch": 1.8918247740141054,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006486579914572366,
      "loss": 0.5979,
      "step": 38090
    },
    {
      "epoch": 1.8923214463097249,
      "grad_norm": 0.162109375,
      "learning_rate": 0.000648618257673587,
      "loss": 0.6016,
      "step": 38100
    },
    {
      "epoch": 1.8928181186053443,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006485785238899374,
      "loss": 0.615,
      "step": 38110
    },
    {
      "epoch": 1.8933147909009636,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.000648538790106288,
      "loss": 0.5877,
      "step": 38120
    },
    {
      "epoch": 1.8938114631965828,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006484990563226384,
      "loss": 0.594,
      "step": 38130
    },
    {
      "epoch": 1.8943081354922022,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0006484593225389888,
      "loss": 0.5847,
      "step": 38140
    },
    {
      "epoch": 1.8948048077878217,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006484195887553393,
      "loss": 0.5837,
      "step": 38150
    },
    {
      "epoch": 1.895301480083441,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0006483798549716897,
      "loss": 0.569,
      "step": 38160
    },
    {
      "epoch": 1.8957981523790601,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006483401211880401,
      "loss": 0.5629,
      "step": 38170
    },
    {
      "epoch": 1.8962948246746798,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0006483003874043906,
      "loss": 0.592,
      "step": 38180
    },
    {
      "epoch": 1.896791496970299,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006482606536207411,
      "loss": 0.5981,
      "step": 38190
    },
    {
      "epoch": 1.8972881692659183,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0006482209198370915,
      "loss": 0.5692,
      "step": 38200
    },
    {
      "epoch": 1.8977848415615377,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0006481811860534419,
      "loss": 0.582,
      "step": 38210
    },
    {
      "epoch": 1.8982815138571572,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006481414522697924,
      "loss": 0.5871,
      "step": 38220
    },
    {
      "epoch": 1.8987781861527764,
      "grad_norm": 0.1171875,
      "learning_rate": 0.000648101718486143,
      "loss": 0.5967,
      "step": 38230
    },
    {
      "epoch": 1.8992748584483956,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006480619847024933,
      "loss": 0.5846,
      "step": 38240
    },
    {
      "epoch": 1.899771530744015,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006480222509188438,
      "loss": 0.5886,
      "step": 38250
    },
    {
      "epoch": 1.9002682030396345,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006479825171351942,
      "loss": 0.593,
      "step": 38260
    },
    {
      "epoch": 1.9007648753352537,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0006479427833515446,
      "loss": 0.5926,
      "step": 38270
    },
    {
      "epoch": 1.9012615476308732,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0006479030495678952,
      "loss": 0.5937,
      "step": 38280
    },
    {
      "epoch": 1.9017582199264926,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006478633157842456,
      "loss": 0.5817,
      "step": 38290
    },
    {
      "epoch": 1.9022548922221119,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.000647823582000596,
      "loss": 0.5878,
      "step": 38300
    },
    {
      "epoch": 1.902751564517731,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006477838482169465,
      "loss": 0.6043,
      "step": 38310
    },
    {
      "epoch": 1.9032482368133505,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006477441144332969,
      "loss": 0.5627,
      "step": 38320
    },
    {
      "epoch": 1.90374490910897,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006477043806496474,
      "loss": 0.578,
      "step": 38330
    },
    {
      "epoch": 1.9042415814045892,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0006476646468659979,
      "loss": 0.5814,
      "step": 38340
    },
    {
      "epoch": 1.9047382537002084,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006476249130823483,
      "loss": 0.6276,
      "step": 38350
    },
    {
      "epoch": 1.905234925995828,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006475851792986987,
      "loss": 0.5758,
      "step": 38360
    },
    {
      "epoch": 1.9057315982914473,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006475454455150491,
      "loss": 0.5622,
      "step": 38370
    },
    {
      "epoch": 1.9062282705870666,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006475057117313997,
      "loss": 0.5823,
      "step": 38380
    },
    {
      "epoch": 1.906724942882686,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006474659779477502,
      "loss": 0.5854,
      "step": 38390
    },
    {
      "epoch": 1.9072216151783055,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006474262441641005,
      "loss": 0.6088,
      "step": 38400
    },
    {
      "epoch": 1.9077182874739247,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.000647386510380451,
      "loss": 0.5652,
      "step": 38410
    },
    {
      "epoch": 1.908214959769544,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006473467765968015,
      "loss": 0.6183,
      "step": 38420
    },
    {
      "epoch": 1.9087116320651634,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006473070428131519,
      "loss": 0.6121,
      "step": 38430
    },
    {
      "epoch": 1.9092083043607828,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006472673090295024,
      "loss": 0.5846,
      "step": 38440
    },
    {
      "epoch": 1.909704976656402,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006472275752458528,
      "loss": 0.5984,
      "step": 38450
    },
    {
      "epoch": 1.9102016489520215,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006471878414622032,
      "loss": 0.5955,
      "step": 38460
    },
    {
      "epoch": 1.910698321247641,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006471481076785537,
      "loss": 0.5847,
      "step": 38470
    },
    {
      "epoch": 1.9111949935432602,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006471083738949042,
      "loss": 0.561,
      "step": 38480
    },
    {
      "epoch": 1.9116916658388794,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006470686401112546,
      "loss": 0.5744,
      "step": 38490
    },
    {
      "epoch": 1.9121883381344988,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006470289063276051,
      "loss": 0.581,
      "step": 38500
    },
    {
      "epoch": 1.9126850104301183,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006469891725439555,
      "loss": 0.5776,
      "step": 38510
    },
    {
      "epoch": 1.9131816827257375,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0006469494387603059,
      "loss": 0.5793,
      "step": 38520
    },
    {
      "epoch": 1.9136783550213567,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0006469097049766565,
      "loss": 0.5699,
      "step": 38530
    },
    {
      "epoch": 1.9141750273169764,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006468699711930069,
      "loss": 0.584,
      "step": 38540
    },
    {
      "epoch": 1.9146716996125956,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0006468302374093574,
      "loss": 0.5715,
      "step": 38550
    },
    {
      "epoch": 1.9151683719082149,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006467905036257078,
      "loss": 0.5985,
      "step": 38560
    },
    {
      "epoch": 1.9156650442038343,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006467507698420582,
      "loss": 0.5708,
      "step": 38570
    },
    {
      "epoch": 1.9161617164994538,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0006467110360584088,
      "loss": 0.5726,
      "step": 38580
    },
    {
      "epoch": 1.916658388795073,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0006466713022747591,
      "loss": 0.5902,
      "step": 38590
    },
    {
      "epoch": 1.9171550610906922,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0006466315684911096,
      "loss": 0.5852,
      "step": 38600
    },
    {
      "epoch": 1.9176517333863117,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0006465918347074601,
      "loss": 0.5814,
      "step": 38610
    },
    {
      "epoch": 1.9181484056819311,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006465521009238104,
      "loss": 0.5683,
      "step": 38620
    },
    {
      "epoch": 1.9186450779775504,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.000646512367140161,
      "loss": 0.5598,
      "step": 38630
    },
    {
      "epoch": 1.9191417502731698,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006464726333565114,
      "loss": 0.5908,
      "step": 38640
    },
    {
      "epoch": 1.9196384225687892,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006464328995728618,
      "loss": 0.5623,
      "step": 38650
    },
    {
      "epoch": 1.9201350948644085,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006463931657892123,
      "loss": 0.5959,
      "step": 38660
    },
    {
      "epoch": 1.9206317671600277,
      "grad_norm": 0.171875,
      "learning_rate": 0.0006463534320055627,
      "loss": 0.5941,
      "step": 38670
    },
    {
      "epoch": 1.9211284394556472,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006463136982219133,
      "loss": 0.6107,
      "step": 38680
    },
    {
      "epoch": 1.9216251117512666,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006462739644382637,
      "loss": 0.5719,
      "step": 38690
    },
    {
      "epoch": 1.9221217840468858,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006462342306546141,
      "loss": 0.5812,
      "step": 38700
    },
    {
      "epoch": 1.922618456342505,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0006461944968709646,
      "loss": 0.6058,
      "step": 38710
    },
    {
      "epoch": 1.9231151286381247,
      "grad_norm": 0.09765625,
      "learning_rate": 0.000646154763087315,
      "loss": 0.5757,
      "step": 38720
    },
    {
      "epoch": 1.923611800933744,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006461150293036655,
      "loss": 0.5796,
      "step": 38730
    },
    {
      "epoch": 1.9241084732293632,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.000646075295520016,
      "loss": 0.5969,
      "step": 38740
    },
    {
      "epoch": 1.9246051455249826,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0006460355617363664,
      "loss": 0.6022,
      "step": 38750
    },
    {
      "epoch": 1.925101817820602,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006459958279527168,
      "loss": 0.5901,
      "step": 38760
    },
    {
      "epoch": 1.9255984901162213,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006459560941690673,
      "loss": 0.5949,
      "step": 38770
    },
    {
      "epoch": 1.9260951624118405,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006459163603854176,
      "loss": 0.565,
      "step": 38780
    },
    {
      "epoch": 1.92659183470746,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0006458766266017682,
      "loss": 0.5685,
      "step": 38790
    },
    {
      "epoch": 1.9270885070030794,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006458368928181187,
      "loss": 0.5727,
      "step": 38800
    },
    {
      "epoch": 1.9275851792986987,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.000645797159034469,
      "loss": 0.5729,
      "step": 38810
    },
    {
      "epoch": 1.928081851594318,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0006457574252508195,
      "loss": 0.5759,
      "step": 38820
    },
    {
      "epoch": 1.9285785238899376,
      "grad_norm": 0.13671875,
      "learning_rate": 0.00064571769146717,
      "loss": 0.5774,
      "step": 38830
    },
    {
      "epoch": 1.9290751961855568,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006456779576835205,
      "loss": 0.596,
      "step": 38840
    },
    {
      "epoch": 1.929571868481176,
      "grad_norm": 0.087890625,
      "learning_rate": 0.0006456382238998709,
      "loss": 0.5776,
      "step": 38850
    },
    {
      "epoch": 1.9300685407767955,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0006455984901162213,
      "loss": 0.5806,
      "step": 38860
    },
    {
      "epoch": 1.930565213072415,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0006455587563325718,
      "loss": 0.5667,
      "step": 38870
    },
    {
      "epoch": 1.9310618853680341,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006455190225489223,
      "loss": 0.5859,
      "step": 38880
    },
    {
      "epoch": 1.9315585576636534,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006454792887652727,
      "loss": 0.5778,
      "step": 38890
    },
    {
      "epoch": 1.932055229959273,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006454395549816232,
      "loss": 0.5954,
      "step": 38900
    },
    {
      "epoch": 1.9325519022548923,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006453998211979736,
      "loss": 0.6011,
      "step": 38910
    },
    {
      "epoch": 1.9330485745505115,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.000645360087414324,
      "loss": 0.5982,
      "step": 38920
    },
    {
      "epoch": 1.933545246846131,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006453203536306746,
      "loss": 0.6026,
      "step": 38930
    },
    {
      "epoch": 1.9340419191417504,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.000645280619847025,
      "loss": 0.5653,
      "step": 38940
    },
    {
      "epoch": 1.9345385914373696,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006452408860633754,
      "loss": 0.5959,
      "step": 38950
    },
    {
      "epoch": 1.9350352637329888,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006452011522797259,
      "loss": 0.6307,
      "step": 38960
    },
    {
      "epoch": 1.9355319360286083,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006451614184960763,
      "loss": 0.6209,
      "step": 38970
    },
    {
      "epoch": 1.9360286083242277,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006451216847124268,
      "loss": 0.5748,
      "step": 38980
    },
    {
      "epoch": 1.936525280619847,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006450819509287773,
      "loss": 0.5798,
      "step": 38990
    },
    {
      "epoch": 1.9370219529154664,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006450422171451277,
      "loss": 0.6054,
      "step": 39000
    },
    {
      "epoch": 1.9375186252110859,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006450024833614781,
      "loss": 0.5824,
      "step": 39010
    },
    {
      "epoch": 1.938015297506705,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006449627495778286,
      "loss": 0.6086,
      "step": 39020
    },
    {
      "epoch": 1.9385119698023243,
      "grad_norm": 0.11328125,
      "learning_rate": 0.000644923015794179,
      "loss": 0.6038,
      "step": 39030
    },
    {
      "epoch": 1.9390086420979438,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006448832820105295,
      "loss": 0.5818,
      "step": 39040
    },
    {
      "epoch": 1.9395053143935632,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006448435482268799,
      "loss": 0.5801,
      "step": 39050
    },
    {
      "epoch": 1.9400019866891824,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0006448038144432304,
      "loss": 0.6027,
      "step": 39060
    },
    {
      "epoch": 1.9404986589848017,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0006447640806595808,
      "loss": 0.5803,
      "step": 39070
    },
    {
      "epoch": 1.9409953312804213,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006447243468759312,
      "loss": 0.584,
      "step": 39080
    },
    {
      "epoch": 1.9414920035760406,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0006446846130922818,
      "loss": 0.5877,
      "step": 39090
    },
    {
      "epoch": 1.9419886758716598,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0006446448793086322,
      "loss": 0.6003,
      "step": 39100
    },
    {
      "epoch": 1.9424853481672792,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006446051455249826,
      "loss": 0.5956,
      "step": 39110
    },
    {
      "epoch": 1.9429820204628987,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006445654117413331,
      "loss": 0.5991,
      "step": 39120
    },
    {
      "epoch": 1.943478692758518,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006445256779576835,
      "loss": 0.5997,
      "step": 39130
    },
    {
      "epoch": 1.9439753650541371,
      "grad_norm": 0.14453125,
      "learning_rate": 0.000644485944174034,
      "loss": 0.5702,
      "step": 39140
    },
    {
      "epoch": 1.9444720373497566,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006444462103903845,
      "loss": 0.594,
      "step": 39150
    },
    {
      "epoch": 1.944968709645376,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006444064766067349,
      "loss": 0.5686,
      "step": 39160
    },
    {
      "epoch": 1.9454653819409953,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006443667428230853,
      "loss": 0.6089,
      "step": 39170
    },
    {
      "epoch": 1.9459620542366147,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0006443270090394359,
      "loss": 0.5801,
      "step": 39180
    },
    {
      "epoch": 1.9464587265322342,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006442872752557863,
      "loss": 0.5689,
      "step": 39190
    },
    {
      "epoch": 1.9469553988278534,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006442475414721367,
      "loss": 0.5747,
      "step": 39200
    },
    {
      "epoch": 1.9474520711234726,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006442078076884872,
      "loss": 0.5758,
      "step": 39210
    },
    {
      "epoch": 1.947948743419092,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006441680739048376,
      "loss": 0.5688,
      "step": 39220
    },
    {
      "epoch": 1.9484454157147115,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.000644128340121188,
      "loss": 0.5876,
      "step": 39230
    },
    {
      "epoch": 1.9489420880103308,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006440886063375385,
      "loss": 0.565,
      "step": 39240
    },
    {
      "epoch": 1.94943876030595,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.000644048872553889,
      "loss": 0.6057,
      "step": 39250
    },
    {
      "epoch": 1.9499354326015694,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006440091387702394,
      "loss": 0.5712,
      "step": 39260
    },
    {
      "epoch": 1.9504321048971889,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0006439694049865898,
      "loss": 0.6069,
      "step": 39270
    },
    {
      "epoch": 1.950928777192808,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006439296712029403,
      "loss": 0.5796,
      "step": 39280
    },
    {
      "epoch": 1.9514254494884276,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006438899374192909,
      "loss": 0.5689,
      "step": 39290
    },
    {
      "epoch": 1.951922121784047,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006438502036356412,
      "loss": 0.5608,
      "step": 39300
    },
    {
      "epoch": 1.9524187940796662,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006438104698519917,
      "loss": 0.5871,
      "step": 39310
    },
    {
      "epoch": 1.9529154663752855,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0006437707360683421,
      "loss": 0.6047,
      "step": 39320
    },
    {
      "epoch": 1.953412138670905,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006437310022846925,
      "loss": 0.5833,
      "step": 39330
    },
    {
      "epoch": 1.9539088109665244,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006436912685010431,
      "loss": 0.6137,
      "step": 39340
    },
    {
      "epoch": 1.9544054832621436,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0006436515347173935,
      "loss": 0.5939,
      "step": 39350
    },
    {
      "epoch": 1.954902155557763,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006436118009337439,
      "loss": 0.5941,
      "step": 39360
    },
    {
      "epoch": 1.9553988278533825,
      "grad_norm": 0.08544921875,
      "learning_rate": 0.0006435720671500944,
      "loss": 0.5745,
      "step": 39370
    },
    {
      "epoch": 1.9558955001490017,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0006435323333664448,
      "loss": 0.5842,
      "step": 39380
    },
    {
      "epoch": 1.956392172444621,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006434925995827953,
      "loss": 0.5685,
      "step": 39390
    },
    {
      "epoch": 1.9568888447402404,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0006434528657991458,
      "loss": 0.5829,
      "step": 39400
    },
    {
      "epoch": 1.9573855170358598,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006434131320154962,
      "loss": 0.6016,
      "step": 39410
    },
    {
      "epoch": 1.957882189331479,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006433733982318467,
      "loss": 0.559,
      "step": 39420
    },
    {
      "epoch": 1.9583788616270983,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.000643333664448197,
      "loss": 0.5896,
      "step": 39430
    },
    {
      "epoch": 1.9588755339227177,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006432939306645476,
      "loss": 0.5995,
      "step": 39440
    },
    {
      "epoch": 1.9593722062183372,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006432541968808981,
      "loss": 0.5651,
      "step": 39450
    },
    {
      "epoch": 1.9598688785139564,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006432144630972484,
      "loss": 0.5804,
      "step": 39460
    },
    {
      "epoch": 1.9603655508095759,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0006431747293135989,
      "loss": 0.5789,
      "step": 39470
    },
    {
      "epoch": 1.9608622231051953,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0006431349955299495,
      "loss": 0.6015,
      "step": 39480
    },
    {
      "epoch": 1.9613588954008145,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006430952617462998,
      "loss": 0.5799,
      "step": 39490
    },
    {
      "epoch": 1.9618555676964338,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006430555279626503,
      "loss": 0.6069,
      "step": 39500
    },
    {
      "epoch": 1.9623522399920532,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006430157941790007,
      "loss": 0.589,
      "step": 39510
    },
    {
      "epoch": 1.9628489122876727,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0006429760603953511,
      "loss": 0.6054,
      "step": 39520
    },
    {
      "epoch": 1.963345584583292,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006429363266117016,
      "loss": 0.5633,
      "step": 39530
    },
    {
      "epoch": 1.9638422568789113,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.0006428965928280521,
      "loss": 0.5687,
      "step": 39540
    },
    {
      "epoch": 1.9643389291745308,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006428568590444025,
      "loss": 0.6061,
      "step": 39550
    },
    {
      "epoch": 1.96483560147015,
      "grad_norm": 0.109375,
      "learning_rate": 0.000642817125260753,
      "loss": 0.5849,
      "step": 39560
    },
    {
      "epoch": 1.9653322737657692,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006427773914771034,
      "loss": 0.5754,
      "step": 39570
    },
    {
      "epoch": 1.9658289460613887,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.000642737657693454,
      "loss": 0.5902,
      "step": 39580
    },
    {
      "epoch": 1.9663256183570081,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006426979239098044,
      "loss": 0.5815,
      "step": 39590
    },
    {
      "epoch": 1.9668222906526274,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006426581901261548,
      "loss": 0.584,
      "step": 39600
    },
    {
      "epoch": 1.9673189629482466,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006426184563425053,
      "loss": 0.5894,
      "step": 39610
    },
    {
      "epoch": 1.967815635243866,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006425787225588557,
      "loss": 0.5796,
      "step": 39620
    },
    {
      "epoch": 1.9683123075394855,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006425389887752061,
      "loss": 0.6132,
      "step": 39630
    },
    {
      "epoch": 1.9688089798351047,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006424992549915567,
      "loss": 0.5728,
      "step": 39640
    },
    {
      "epoch": 1.9693056521307242,
      "grad_norm": 0.119140625,
      "learning_rate": 0.000642459521207907,
      "loss": 0.5985,
      "step": 39650
    },
    {
      "epoch": 1.9698023244263436,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006424197874242575,
      "loss": 0.5922,
      "step": 39660
    },
    {
      "epoch": 1.9702989967219628,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.000642380053640608,
      "loss": 0.6181,
      "step": 39670
    },
    {
      "epoch": 1.970795669017582,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006423403198569583,
      "loss": 0.5975,
      "step": 39680
    },
    {
      "epoch": 1.9712923413132015,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006423005860733089,
      "loss": 0.6012,
      "step": 39690
    },
    {
      "epoch": 1.971789013608821,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006422608522896593,
      "loss": 0.567,
      "step": 39700
    },
    {
      "epoch": 1.9722856859044402,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006422211185060097,
      "loss": 0.5704,
      "step": 39710
    },
    {
      "epoch": 1.9727823582000596,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0006421813847223602,
      "loss": 0.6102,
      "step": 39720
    },
    {
      "epoch": 1.973279030495679,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006421416509387106,
      "loss": 0.6061,
      "step": 39730
    },
    {
      "epoch": 1.9737757027912983,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006421019171550612,
      "loss": 0.5885,
      "step": 39740
    },
    {
      "epoch": 1.9742723750869176,
      "grad_norm": 0.08642578125,
      "learning_rate": 0.0006420621833714116,
      "loss": 0.5902,
      "step": 39750
    },
    {
      "epoch": 1.974769047382537,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.000642022449587762,
      "loss": 0.5694,
      "step": 39760
    },
    {
      "epoch": 1.9752657196781565,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006419827158041125,
      "loss": 0.6038,
      "step": 39770
    },
    {
      "epoch": 1.9757623919737757,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0006419429820204629,
      "loss": 0.5931,
      "step": 39780
    },
    {
      "epoch": 1.976259064269395,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006419032482368134,
      "loss": 0.5722,
      "step": 39790
    },
    {
      "epoch": 1.9767557365650144,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006418635144531639,
      "loss": 0.5876,
      "step": 39800
    },
    {
      "epoch": 1.9772524088606338,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006418237806695143,
      "loss": 0.5602,
      "step": 39810
    },
    {
      "epoch": 1.977749081156253,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0006417840468858647,
      "loss": 0.5556,
      "step": 39820
    },
    {
      "epoch": 1.9782457534518725,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006417443131022152,
      "loss": 0.5809,
      "step": 39830
    },
    {
      "epoch": 1.978742425747492,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006417045793185656,
      "loss": 0.5805,
      "step": 39840
    },
    {
      "epoch": 1.9792390980431112,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006416648455349161,
      "loss": 0.5848,
      "step": 39850
    },
    {
      "epoch": 1.9797357703387304,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006416251117512666,
      "loss": 0.5994,
      "step": 39860
    },
    {
      "epoch": 1.9802324426343498,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.000641585377967617,
      "loss": 0.5487,
      "step": 39870
    },
    {
      "epoch": 1.9807291149299693,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006415456441839674,
      "loss": 0.5817,
      "step": 39880
    },
    {
      "epoch": 1.9812257872255885,
      "grad_norm": 0.15625,
      "learning_rate": 0.000641505910400318,
      "loss": 0.5628,
      "step": 39890
    },
    {
      "epoch": 1.981722459521208,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006414661766166684,
      "loss": 0.5559,
      "step": 39900
    },
    {
      "epoch": 1.9822191318168274,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0006414264428330188,
      "loss": 0.579,
      "step": 39910
    },
    {
      "epoch": 1.9827158041124466,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0006413867090493692,
      "loss": 0.5864,
      "step": 39920
    },
    {
      "epoch": 1.9832124764080659,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006413469752657197,
      "loss": 0.5798,
      "step": 39930
    },
    {
      "epoch": 1.9837091487036853,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006413072414820702,
      "loss": 0.589,
      "step": 39940
    },
    {
      "epoch": 1.9842058209993048,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006412675076984206,
      "loss": 0.6079,
      "step": 39950
    },
    {
      "epoch": 1.984702493294924,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0006412277739147711,
      "loss": 0.5823,
      "step": 39960
    },
    {
      "epoch": 1.9851991655905432,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0006411880401311215,
      "loss": 0.5776,
      "step": 39970
    },
    {
      "epoch": 1.9856958378861627,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006411483063474719,
      "loss": 0.5796,
      "step": 39980
    },
    {
      "epoch": 1.9861925101817821,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006411085725638225,
      "loss": 0.5989,
      "step": 39990
    },
    {
      "epoch": 1.9866891824774013,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006410688387801729,
      "loss": 0.5959,
      "step": 40000
    },
    {
      "epoch": 1.9871858547730208,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0006410291049965233,
      "loss": 0.5618,
      "step": 40010
    },
    {
      "epoch": 1.9876825270686402,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0006409893712128738,
      "loss": 0.5903,
      "step": 40020
    },
    {
      "epoch": 1.9881791993642595,
      "grad_norm": 0.08740234375,
      "learning_rate": 0.0006409496374292242,
      "loss": 0.5609,
      "step": 40030
    },
    {
      "epoch": 1.9886758716598787,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0006409099036455747,
      "loss": 0.5721,
      "step": 40040
    },
    {
      "epoch": 1.9891725439554981,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006408701698619252,
      "loss": 0.578,
      "step": 40050
    },
    {
      "epoch": 1.9896692162511176,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006408304360782756,
      "loss": 0.5972,
      "step": 40060
    },
    {
      "epoch": 1.9901658885467368,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000640790702294626,
      "loss": 0.5915,
      "step": 40070
    },
    {
      "epoch": 1.9906625608423563,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006407509685109765,
      "loss": 0.597,
      "step": 40080
    },
    {
      "epoch": 1.9911592331379757,
      "grad_norm": 0.173828125,
      "learning_rate": 0.000640711234727327,
      "loss": 0.5964,
      "step": 40090
    },
    {
      "epoch": 1.991655905433595,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0006406715009436774,
      "loss": 0.5867,
      "step": 40100
    },
    {
      "epoch": 1.9921525777292142,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006406317671600278,
      "loss": 0.5844,
      "step": 40110
    },
    {
      "epoch": 1.9926492500248336,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0006405920333763783,
      "loss": 0.6189,
      "step": 40120
    },
    {
      "epoch": 1.993145922320453,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006405522995927287,
      "loss": 0.5775,
      "step": 40130
    },
    {
      "epoch": 1.9936425946160723,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006405125658090792,
      "loss": 0.5647,
      "step": 40140
    },
    {
      "epoch": 1.9941392669116915,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006404728320254297,
      "loss": 0.5857,
      "step": 40150
    },
    {
      "epoch": 1.994635939207311,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006404330982417801,
      "loss": 0.5828,
      "step": 40160
    },
    {
      "epoch": 1.9951326115029304,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006403933644581305,
      "loss": 0.5727,
      "step": 40170
    },
    {
      "epoch": 1.9956292837985496,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.000640353630674481,
      "loss": 0.5982,
      "step": 40180
    },
    {
      "epoch": 1.996125956094169,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006403138968908315,
      "loss": 0.5826,
      "step": 40190
    },
    {
      "epoch": 1.9966226283897885,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0006402741631071819,
      "loss": 0.5778,
      "step": 40200
    },
    {
      "epoch": 1.9971193006854078,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006402344293235324,
      "loss": 0.5487,
      "step": 40210
    },
    {
      "epoch": 1.997615972981027,
      "grad_norm": 0.203125,
      "learning_rate": 0.0006401946955398828,
      "loss": 0.5894,
      "step": 40220
    },
    {
      "epoch": 1.9981126452766464,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006401549617562332,
      "loss": 0.6065,
      "step": 40230
    },
    {
      "epoch": 1.998609317572266,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006401152279725838,
      "loss": 0.5924,
      "step": 40240
    },
    {
      "epoch": 1.9991059898678851,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006400754941889342,
      "loss": 0.5868,
      "step": 40250
    },
    {
      "epoch": 1.9996026621635046,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006400357604052846,
      "loss": 0.5794,
      "step": 40260
    },
    {
      "epoch": 2.000099334459124,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006399960266216351,
      "loss": 0.5783,
      "step": 40270
    },
    {
      "epoch": 2.0005960067547433,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006399562928379855,
      "loss": 0.5969,
      "step": 40280
    },
    {
      "epoch": 2.0010926790503625,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.000639916559054336,
      "loss": 0.5477,
      "step": 40290
    },
    {
      "epoch": 2.0015893513459817,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0006398768252706864,
      "loss": 0.5871,
      "step": 40300
    },
    {
      "epoch": 2.0020860236416014,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006398370914870369,
      "loss": 0.5876,
      "step": 40310
    },
    {
      "epoch": 2.0025826959372206,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.0006397973577033874,
      "loss": 0.5657,
      "step": 40320
    },
    {
      "epoch": 2.00307936823284,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006397576239197377,
      "loss": 0.5332,
      "step": 40330
    },
    {
      "epoch": 2.0035760405284595,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006397178901360883,
      "loss": 0.5807,
      "step": 40340
    },
    {
      "epoch": 2.0040727128240787,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006396781563524388,
      "loss": 0.5744,
      "step": 40350
    },
    {
      "epoch": 2.004569385119698,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006396384225687891,
      "loss": 0.5867,
      "step": 40360
    },
    {
      "epoch": 2.005066057415317,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006395986887851396,
      "loss": 0.583,
      "step": 40370
    },
    {
      "epoch": 2.005562729710937,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.00063955895500149,
      "loss": 0.5734,
      "step": 40380
    },
    {
      "epoch": 2.006059402006556,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006395192212178404,
      "loss": 0.567,
      "step": 40390
    },
    {
      "epoch": 2.0065560743021753,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000639479487434191,
      "loss": 0.5576,
      "step": 40400
    },
    {
      "epoch": 2.007052746597795,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006394397536505414,
      "loss": 0.606,
      "step": 40410
    },
    {
      "epoch": 2.007549418893414,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006394000198668918,
      "loss": 0.5705,
      "step": 40420
    },
    {
      "epoch": 2.0080460911890334,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0006393602860832423,
      "loss": 0.5697,
      "step": 40430
    },
    {
      "epoch": 2.0085427634846527,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0006393205522995927,
      "loss": 0.5761,
      "step": 40440
    },
    {
      "epoch": 2.0090394357802723,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006392808185159432,
      "loss": 0.5834,
      "step": 40450
    },
    {
      "epoch": 2.0095361080758916,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006392410847322937,
      "loss": 0.5585,
      "step": 40460
    },
    {
      "epoch": 2.010032780371511,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006392013509486441,
      "loss": 0.5593,
      "step": 40470
    },
    {
      "epoch": 2.01052945266713,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006391616171649946,
      "loss": 0.553,
      "step": 40480
    },
    {
      "epoch": 2.0110261249627497,
      "grad_norm": 0.16796875,
      "learning_rate": 0.000639121883381345,
      "loss": 0.571,
      "step": 40490
    },
    {
      "epoch": 2.011522797258369,
      "grad_norm": 0.1875,
      "learning_rate": 0.0006390821495976955,
      "loss": 0.5681,
      "step": 40500
    },
    {
      "epoch": 2.012019469553988,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.000639042415814046,
      "loss": 0.5786,
      "step": 40510
    },
    {
      "epoch": 2.012516141849608,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006390026820303963,
      "loss": 0.5697,
      "step": 40520
    },
    {
      "epoch": 2.013012814145227,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006389629482467468,
      "loss": 0.5741,
      "step": 40530
    },
    {
      "epoch": 2.0135094864408463,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006389232144630974,
      "loss": 0.5523,
      "step": 40540
    },
    {
      "epoch": 2.0140061587364655,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006388834806794477,
      "loss": 0.5956,
      "step": 40550
    },
    {
      "epoch": 2.014502831032085,
      "grad_norm": 0.125,
      "learning_rate": 0.0006388437468957982,
      "loss": 0.5698,
      "step": 40560
    },
    {
      "epoch": 2.0149995033277044,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006388040131121486,
      "loss": 0.5914,
      "step": 40570
    },
    {
      "epoch": 2.0154961756233236,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.000638764279328499,
      "loss": 0.5779,
      "step": 40580
    },
    {
      "epoch": 2.0159928479189433,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.0006387245455448495,
      "loss": 0.5761,
      "step": 40590
    },
    {
      "epoch": 2.0164895202145625,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0006386848117612,
      "loss": 0.5418,
      "step": 40600
    },
    {
      "epoch": 2.0169861925101817,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0006386450779775504,
      "loss": 0.5969,
      "step": 40610
    },
    {
      "epoch": 2.017482864805801,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006386053441939009,
      "loss": 0.5575,
      "step": 40620
    },
    {
      "epoch": 2.0179795371014206,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0006385656104102513,
      "loss": 0.5786,
      "step": 40630
    },
    {
      "epoch": 2.01847620939704,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006385258766266019,
      "loss": 0.5354,
      "step": 40640
    },
    {
      "epoch": 2.018972881692659,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006384861428429523,
      "loss": 0.608,
      "step": 40650
    },
    {
      "epoch": 2.0194695539882783,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0006384464090593027,
      "loss": 0.5686,
      "step": 40660
    },
    {
      "epoch": 2.019966226283898,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006384066752756532,
      "loss": 0.5938,
      "step": 40670
    },
    {
      "epoch": 2.020462898579517,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006383669414920036,
      "loss": 0.5727,
      "step": 40680
    },
    {
      "epoch": 2.0209595708751364,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.000638327207708354,
      "loss": 0.5695,
      "step": 40690
    },
    {
      "epoch": 2.021456243170756,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0006382874739247046,
      "loss": 0.5923,
      "step": 40700
    },
    {
      "epoch": 2.0219529154663753,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006382477401410549,
      "loss": 0.5913,
      "step": 40710
    },
    {
      "epoch": 2.0224495877619946,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006382080063574054,
      "loss": 0.5862,
      "step": 40720
    },
    {
      "epoch": 2.022946260057614,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006381682725737559,
      "loss": 0.6107,
      "step": 40730
    },
    {
      "epoch": 2.0234429323532335,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006381285387901062,
      "loss": 0.6058,
      "step": 40740
    },
    {
      "epoch": 2.0239396046488527,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0006380888050064568,
      "loss": 0.5606,
      "step": 40750
    },
    {
      "epoch": 2.024436276944472,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0006380490712228073,
      "loss": 0.572,
      "step": 40760
    },
    {
      "epoch": 2.0249329492400916,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006380093374391577,
      "loss": 0.5759,
      "step": 40770
    },
    {
      "epoch": 2.025429621535711,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006379696036555081,
      "loss": 0.6079,
      "step": 40780
    },
    {
      "epoch": 2.02592629383133,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006379298698718585,
      "loss": 0.5937,
      "step": 40790
    },
    {
      "epoch": 2.0264229661269493,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006378901360882091,
      "loss": 0.5953,
      "step": 40800
    },
    {
      "epoch": 2.026919638422569,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006378504023045595,
      "loss": 0.5788,
      "step": 40810
    },
    {
      "epoch": 2.027416310718188,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006378106685209099,
      "loss": 0.5634,
      "step": 40820
    },
    {
      "epoch": 2.0279129830138074,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0006377709347372604,
      "loss": 0.5917,
      "step": 40830
    },
    {
      "epoch": 2.0284096553094266,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0006377312009536108,
      "loss": 0.5721,
      "step": 40840
    },
    {
      "epoch": 2.0289063276050463,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.0006376914671699613,
      "loss": 0.5689,
      "step": 40850
    },
    {
      "epoch": 2.0294029999006655,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006376517333863118,
      "loss": 0.5732,
      "step": 40860
    },
    {
      "epoch": 2.0298996721962848,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006376119996026622,
      "loss": 0.5649,
      "step": 40870
    },
    {
      "epoch": 2.0303963444919044,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006375722658190126,
      "loss": 0.5461,
      "step": 40880
    },
    {
      "epoch": 2.0308930167875237,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006375325320353631,
      "loss": 0.5322,
      "step": 40890
    },
    {
      "epoch": 2.031389689083143,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0006374927982517135,
      "loss": 0.6145,
      "step": 40900
    },
    {
      "epoch": 2.031886361378762,
      "grad_norm": 0.109375,
      "learning_rate": 0.000637453064468064,
      "loss": 0.5766,
      "step": 40910
    },
    {
      "epoch": 2.032383033674382,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006374133306844145,
      "loss": 0.563,
      "step": 40920
    },
    {
      "epoch": 2.032879705970001,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006373735969007649,
      "loss": 0.5614,
      "step": 40930
    },
    {
      "epoch": 2.0333763782656202,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006373338631171153,
      "loss": 0.5522,
      "step": 40940
    },
    {
      "epoch": 2.03387305056124,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006372941293334659,
      "loss": 0.5635,
      "step": 40950
    },
    {
      "epoch": 2.034369722856859,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006372543955498163,
      "loss": 0.5879,
      "step": 40960
    },
    {
      "epoch": 2.0348663951524784,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006372146617661667,
      "loss": 0.5443,
      "step": 40970
    },
    {
      "epoch": 2.0353630674480976,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006371749279825171,
      "loss": 0.5672,
      "step": 40980
    },
    {
      "epoch": 2.0358597397437173,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006371351941988676,
      "loss": 0.5633,
      "step": 40990
    },
    {
      "epoch": 2.0363564120393365,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0006370954604152181,
      "loss": 0.588,
      "step": 41000
    },
    {
      "epoch": 2.0368530843349557,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006370557266315685,
      "loss": 0.5558,
      "step": 41010
    },
    {
      "epoch": 2.037349756630575,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.000637015992847919,
      "loss": 0.5913,
      "step": 41020
    },
    {
      "epoch": 2.0378464289261946,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006369762590642694,
      "loss": 0.5494,
      "step": 41030
    },
    {
      "epoch": 2.038343101221814,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006369365252806198,
      "loss": 0.5775,
      "step": 41040
    },
    {
      "epoch": 2.038839773517433,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006368967914969704,
      "loss": 0.5988,
      "step": 41050
    },
    {
      "epoch": 2.0393364458130527,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0006368570577133208,
      "loss": 0.5296,
      "step": 41060
    },
    {
      "epoch": 2.039833118108672,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006368173239296712,
      "loss": 0.5901,
      "step": 41070
    },
    {
      "epoch": 2.040329790404291,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006367775901460217,
      "loss": 0.559,
      "step": 41080
    },
    {
      "epoch": 2.0408264626999104,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006367378563623721,
      "loss": 0.5933,
      "step": 41090
    },
    {
      "epoch": 2.04132313499553,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006366981225787226,
      "loss": 0.5288,
      "step": 41100
    },
    {
      "epoch": 2.0418198072911493,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006366583887950731,
      "loss": 0.5744,
      "step": 41110
    },
    {
      "epoch": 2.0423164795867685,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0006366186550114235,
      "loss": 0.5789,
      "step": 41120
    },
    {
      "epoch": 2.042813151882388,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0006365789212277739,
      "loss": 0.5652,
      "step": 41130
    },
    {
      "epoch": 2.0433098241780074,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0006365391874441244,
      "loss": 0.5516,
      "step": 41140
    },
    {
      "epoch": 2.0438064964736267,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006364994536604749,
      "loss": 0.5759,
      "step": 41150
    },
    {
      "epoch": 2.044303168769246,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006364597198768253,
      "loss": 0.5565,
      "step": 41160
    },
    {
      "epoch": 2.0447998410648656,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006364199860931757,
      "loss": 0.5778,
      "step": 41170
    },
    {
      "epoch": 2.045296513360485,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006363802523095262,
      "loss": 0.5653,
      "step": 41180
    },
    {
      "epoch": 2.045793185656104,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006363405185258766,
      "loss": 0.5975,
      "step": 41190
    },
    {
      "epoch": 2.0462898579517232,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006363007847422271,
      "loss": 0.5602,
      "step": 41200
    },
    {
      "epoch": 2.046786530247343,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006362610509585776,
      "loss": 0.5594,
      "step": 41210
    },
    {
      "epoch": 2.047283202542962,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0006362213171749281,
      "loss": 0.5369,
      "step": 41220
    },
    {
      "epoch": 2.0477798748385814,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0006361815833912784,
      "loss": 0.5881,
      "step": 41230
    },
    {
      "epoch": 2.048276547134201,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006361418496076289,
      "loss": 0.5492,
      "step": 41240
    },
    {
      "epoch": 2.0487732194298203,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006361021158239794,
      "loss": 0.5637,
      "step": 41250
    },
    {
      "epoch": 2.0492698917254395,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0006360623820403298,
      "loss": 0.5624,
      "step": 41260
    },
    {
      "epoch": 2.0497665640210587,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0006360226482566803,
      "loss": 0.5966,
      "step": 41270
    },
    {
      "epoch": 2.0502632363166784,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006359829144730307,
      "loss": 0.6032,
      "step": 41280
    },
    {
      "epoch": 2.0507599086122976,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0006359431806893811,
      "loss": 0.594,
      "step": 41290
    },
    {
      "epoch": 2.051256580907917,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006359034469057317,
      "loss": 0.5837,
      "step": 41300
    },
    {
      "epoch": 2.0517532532035365,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006358637131220821,
      "loss": 0.5417,
      "step": 41310
    },
    {
      "epoch": 2.0522499254991557,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006358239793384325,
      "loss": 0.6023,
      "step": 41320
    },
    {
      "epoch": 2.052746597794775,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.000635784245554783,
      "loss": 0.5314,
      "step": 41330
    },
    {
      "epoch": 2.053243270090394,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006357445117711334,
      "loss": 0.5968,
      "step": 41340
    },
    {
      "epoch": 2.053739942386014,
      "grad_norm": 0.1875,
      "learning_rate": 0.0006357047779874839,
      "loss": 0.558,
      "step": 41350
    },
    {
      "epoch": 2.054236614681633,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.0006356650442038344,
      "loss": 0.5716,
      "step": 41360
    },
    {
      "epoch": 2.0547332869772523,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006356253104201848,
      "loss": 0.5497,
      "step": 41370
    },
    {
      "epoch": 2.0552299592728716,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006355855766365353,
      "loss": 0.5591,
      "step": 41380
    },
    {
      "epoch": 2.0557266315684912,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006355458428528856,
      "loss": 0.5912,
      "step": 41390
    },
    {
      "epoch": 2.0562233038641105,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006355061090692362,
      "loss": 0.5788,
      "step": 41400
    },
    {
      "epoch": 2.0567199761597297,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006354663752855867,
      "loss": 0.5456,
      "step": 41410
    },
    {
      "epoch": 2.0572166484553494,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000635426641501937,
      "loss": 0.5691,
      "step": 41420
    },
    {
      "epoch": 2.0577133207509686,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006353869077182875,
      "loss": 0.5643,
      "step": 41430
    },
    {
      "epoch": 2.058209993046588,
      "grad_norm": 0.08349609375,
      "learning_rate": 0.0006353471739346379,
      "loss": 0.5555,
      "step": 41440
    },
    {
      "epoch": 2.058706665342207,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006353074401509884,
      "loss": 0.5833,
      "step": 41450
    },
    {
      "epoch": 2.0592033376378267,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006352677063673389,
      "loss": 0.5867,
      "step": 41460
    },
    {
      "epoch": 2.059700009933446,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006352279725836893,
      "loss": 0.5708,
      "step": 41470
    },
    {
      "epoch": 2.060196682229065,
      "grad_norm": 0.171875,
      "learning_rate": 0.0006351882388000397,
      "loss": 0.592,
      "step": 41480
    },
    {
      "epoch": 2.060693354524685,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006351485050163902,
      "loss": 0.5738,
      "step": 41490
    },
    {
      "epoch": 2.061190026820304,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006351087712327407,
      "loss": 0.5879,
      "step": 41500
    },
    {
      "epoch": 2.0616866991159233,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006350690374490912,
      "loss": 0.5452,
      "step": 41510
    },
    {
      "epoch": 2.0621833714115425,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006350293036654416,
      "loss": 0.5565,
      "step": 41520
    },
    {
      "epoch": 2.062680043707162,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.000634989569881792,
      "loss": 0.5858,
      "step": 41530
    },
    {
      "epoch": 2.0631767160027814,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0006349498360981425,
      "loss": 0.5948,
      "step": 41540
    },
    {
      "epoch": 2.0636733882984006,
      "grad_norm": 0.1015625,
      "learning_rate": 0.000634910102314493,
      "loss": 0.5653,
      "step": 41550
    },
    {
      "epoch": 2.06417006059402,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006348703685308434,
      "loss": 0.5673,
      "step": 41560
    },
    {
      "epoch": 2.0646667328896395,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006348306347471939,
      "loss": 0.5766,
      "step": 41570
    },
    {
      "epoch": 2.0651634051852588,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006347909009635442,
      "loss": 0.591,
      "step": 41580
    },
    {
      "epoch": 2.065660077480878,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006347511671798947,
      "loss": 0.5991,
      "step": 41590
    },
    {
      "epoch": 2.0661567497764977,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0006347114333962453,
      "loss": 0.5761,
      "step": 41600
    },
    {
      "epoch": 2.066653422072117,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006346716996125956,
      "loss": 0.5686,
      "step": 41610
    },
    {
      "epoch": 2.067150094367736,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006346319658289461,
      "loss": 0.5431,
      "step": 41620
    },
    {
      "epoch": 2.0676467666633553,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006345922320452966,
      "loss": 0.5931,
      "step": 41630
    },
    {
      "epoch": 2.068143438958975,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006345524982616469,
      "loss": 0.5624,
      "step": 41640
    },
    {
      "epoch": 2.0686401112545942,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006345127644779975,
      "loss": 0.6122,
      "step": 41650
    },
    {
      "epoch": 2.0691367835502135,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006344730306943479,
      "loss": 0.5739,
      "step": 41660
    },
    {
      "epoch": 2.0696334558458327,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0006344332969106984,
      "loss": 0.5955,
      "step": 41670
    },
    {
      "epoch": 2.0701301281414524,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0006343935631270488,
      "loss": 0.5844,
      "step": 41680
    },
    {
      "epoch": 2.0706268004370716,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0006343538293433992,
      "loss": 0.5685,
      "step": 41690
    },
    {
      "epoch": 2.071123472732691,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006343140955597498,
      "loss": 0.5632,
      "step": 41700
    },
    {
      "epoch": 2.0716201450283105,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006342743617761002,
      "loss": 0.5264,
      "step": 41710
    },
    {
      "epoch": 2.0721168173239297,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006342346279924506,
      "loss": 0.5794,
      "step": 41720
    },
    {
      "epoch": 2.072613489619549,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006341948942088011,
      "loss": 0.579,
      "step": 41730
    },
    {
      "epoch": 2.073110161915168,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006341551604251515,
      "loss": 0.6261,
      "step": 41740
    },
    {
      "epoch": 2.073606834210788,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.000634115426641502,
      "loss": 0.5718,
      "step": 41750
    },
    {
      "epoch": 2.074103506506407,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0006340756928578525,
      "loss": 0.5665,
      "step": 41760
    },
    {
      "epoch": 2.0746001788020263,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006340359590742028,
      "loss": 0.5789,
      "step": 41770
    },
    {
      "epoch": 2.075096851097646,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006339962252905533,
      "loss": 0.5854,
      "step": 41780
    },
    {
      "epoch": 2.075593523393265,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0006339564915069038,
      "loss": 0.5833,
      "step": 41790
    },
    {
      "epoch": 2.0760901956888844,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006339167577232541,
      "loss": 0.5486,
      "step": 41800
    },
    {
      "epoch": 2.0765868679845036,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006338770239396047,
      "loss": 0.5727,
      "step": 41810
    },
    {
      "epoch": 2.0770835402801233,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0006338372901559552,
      "loss": 0.5696,
      "step": 41820
    },
    {
      "epoch": 2.0775802125757425,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006337975563723056,
      "loss": 0.5609,
      "step": 41830
    },
    {
      "epoch": 2.0780768848713618,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.000633757822588656,
      "loss": 0.5891,
      "step": 41840
    },
    {
      "epoch": 2.0785735571669814,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006337180888050064,
      "loss": 0.5951,
      "step": 41850
    },
    {
      "epoch": 2.0790702294626007,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.000633678355021357,
      "loss": 0.5704,
      "step": 41860
    },
    {
      "epoch": 2.07956690175822,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006336386212377074,
      "loss": 0.5804,
      "step": 41870
    },
    {
      "epoch": 2.080063574053839,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006335988874540578,
      "loss": 0.5651,
      "step": 41880
    },
    {
      "epoch": 2.080560246349459,
      "grad_norm": 0.0869140625,
      "learning_rate": 0.0006335591536704083,
      "loss": 0.5728,
      "step": 41890
    },
    {
      "epoch": 2.081056918645078,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006335194198867587,
      "loss": 0.5829,
      "step": 41900
    },
    {
      "epoch": 2.0815535909406973,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0006334796861031092,
      "loss": 0.5777,
      "step": 41910
    },
    {
      "epoch": 2.0820502632363165,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006334399523194597,
      "loss": 0.5489,
      "step": 41920
    },
    {
      "epoch": 2.082546935531936,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0006334002185358101,
      "loss": 0.5876,
      "step": 41930
    },
    {
      "epoch": 2.0830436078275554,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006333604847521605,
      "loss": 0.5451,
      "step": 41940
    },
    {
      "epoch": 2.0835402801231746,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.000633320750968511,
      "loss": 0.6034,
      "step": 41950
    },
    {
      "epoch": 2.0840369524187943,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0006332810171848615,
      "loss": 0.5812,
      "step": 41960
    },
    {
      "epoch": 2.0845336247144135,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006332412834012119,
      "loss": 0.5701,
      "step": 41970
    },
    {
      "epoch": 2.0850302970100327,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0006332015496175624,
      "loss": 0.5569,
      "step": 41980
    },
    {
      "epoch": 2.085526969305652,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006331618158339128,
      "loss": 0.6005,
      "step": 41990
    },
    {
      "epoch": 2.0860236416012716,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006331220820502632,
      "loss": 0.5837,
      "step": 42000
    },
    {
      "epoch": 2.086520313896891,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006330823482666138,
      "loss": 0.576,
      "step": 42010
    },
    {
      "epoch": 2.08701698619251,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0006330426144829642,
      "loss": 0.5952,
      "step": 42020
    },
    {
      "epoch": 2.0875136584881293,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006330028806993146,
      "loss": 0.6144,
      "step": 42030
    },
    {
      "epoch": 2.088010330783749,
      "grad_norm": 0.1328125,
      "learning_rate": 0.000632963146915665,
      "loss": 0.5758,
      "step": 42040
    },
    {
      "epoch": 2.088507003079368,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006329234131320155,
      "loss": 0.5794,
      "step": 42050
    },
    {
      "epoch": 2.0890036753749874,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.000632883679348366,
      "loss": 0.5563,
      "step": 42060
    },
    {
      "epoch": 2.089500347670607,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006328439455647164,
      "loss": 0.5668,
      "step": 42070
    },
    {
      "epoch": 2.0899970199662263,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006328042117810669,
      "loss": 0.5914,
      "step": 42080
    },
    {
      "epoch": 2.0904936922618456,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006327644779974173,
      "loss": 0.5852,
      "step": 42090
    },
    {
      "epoch": 2.090990364557465,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006327247442137677,
      "loss": 0.559,
      "step": 42100
    },
    {
      "epoch": 2.0914870368530845,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006326850104301183,
      "loss": 0.5842,
      "step": 42110
    },
    {
      "epoch": 2.0919837091487037,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006326452766464687,
      "loss": 0.5544,
      "step": 42120
    },
    {
      "epoch": 2.092480381444323,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0006326055428628191,
      "loss": 0.5769,
      "step": 42130
    },
    {
      "epoch": 2.0929770537399426,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006325658090791696,
      "loss": 0.5735,
      "step": 42140
    },
    {
      "epoch": 2.093473726035562,
      "grad_norm": 0.130859375,
      "learning_rate": 0.00063252607529552,
      "loss": 0.5723,
      "step": 42150
    },
    {
      "epoch": 2.093970398331181,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006324863415118705,
      "loss": 0.5741,
      "step": 42160
    },
    {
      "epoch": 2.0944670706268003,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.000632446607728221,
      "loss": 0.5562,
      "step": 42170
    },
    {
      "epoch": 2.09496374292242,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006324068739445714,
      "loss": 0.5773,
      "step": 42180
    },
    {
      "epoch": 2.095460415218039,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006323671401609218,
      "loss": 0.587,
      "step": 42190
    },
    {
      "epoch": 2.0959570875136584,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006323274063772723,
      "loss": 0.5982,
      "step": 42200
    },
    {
      "epoch": 2.096453759809278,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006322876725936228,
      "loss": 0.5631,
      "step": 42210
    },
    {
      "epoch": 2.0969504321048973,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006322479388099732,
      "loss": 0.5632,
      "step": 42220
    },
    {
      "epoch": 2.0974471044005165,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006322082050263236,
      "loss": 0.5785,
      "step": 42230
    },
    {
      "epoch": 2.0979437766961357,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006321684712426741,
      "loss": 0.575,
      "step": 42240
    },
    {
      "epoch": 2.0984404489917554,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0006321287374590245,
      "loss": 0.5626,
      "step": 42250
    },
    {
      "epoch": 2.0989371212873746,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.000632089003675375,
      "loss": 0.6085,
      "step": 42260
    },
    {
      "epoch": 2.099433793582994,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0006320492698917255,
      "loss": 0.5885,
      "step": 42270
    },
    {
      "epoch": 2.099930465878613,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.000632009536108076,
      "loss": 0.5616,
      "step": 42280
    },
    {
      "epoch": 2.1004271381742328,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0006319698023244263,
      "loss": 0.5764,
      "step": 42290
    },
    {
      "epoch": 2.100923810469852,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006319300685407768,
      "loss": 0.5754,
      "step": 42300
    },
    {
      "epoch": 2.101420482765471,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006318903347571273,
      "loss": 0.5673,
      "step": 42310
    },
    {
      "epoch": 2.101917155061091,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0006318506009734777,
      "loss": 0.5716,
      "step": 42320
    },
    {
      "epoch": 2.10241382735671,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0006318108671898282,
      "loss": 0.5877,
      "step": 42330
    },
    {
      "epoch": 2.1029104996523293,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006317711334061786,
      "loss": 0.5538,
      "step": 42340
    },
    {
      "epoch": 2.1034071719479486,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.000631731399622529,
      "loss": 0.5831,
      "step": 42350
    },
    {
      "epoch": 2.1039038442435682,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006316916658388796,
      "loss": 0.5802,
      "step": 42360
    },
    {
      "epoch": 2.1044005165391875,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.00063165193205523,
      "loss": 0.5466,
      "step": 42370
    },
    {
      "epoch": 2.1048971888348067,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0006316121982715804,
      "loss": 0.5852,
      "step": 42380
    },
    {
      "epoch": 2.105393861130426,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006315724644879309,
      "loss": 0.5649,
      "step": 42390
    },
    {
      "epoch": 2.1058905334260456,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006315327307042813,
      "loss": 0.608,
      "step": 42400
    },
    {
      "epoch": 2.106387205721665,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006314929969206319,
      "loss": 0.6046,
      "step": 42410
    },
    {
      "epoch": 2.106883878017284,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006314532631369823,
      "loss": 0.5915,
      "step": 42420
    },
    {
      "epoch": 2.1073805503129037,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006314135293533327,
      "loss": 0.579,
      "step": 42430
    },
    {
      "epoch": 2.107877222608523,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0006313737955696832,
      "loss": 0.5746,
      "step": 42440
    },
    {
      "epoch": 2.108373894904142,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006313340617860335,
      "loss": 0.5734,
      "step": 42450
    },
    {
      "epoch": 2.1088705671997614,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006312943280023841,
      "loss": 0.5612,
      "step": 42460
    },
    {
      "epoch": 2.109367239495381,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006312545942187346,
      "loss": 0.5787,
      "step": 42470
    },
    {
      "epoch": 2.1098639117910003,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0006312148604350849,
      "loss": 0.5601,
      "step": 42480
    },
    {
      "epoch": 2.1103605840866195,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006311751266514354,
      "loss": 0.5422,
      "step": 42490
    },
    {
      "epoch": 2.110857256382239,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0006311353928677858,
      "loss": 0.592,
      "step": 42500
    },
    {
      "epoch": 2.1113539286778584,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006310956590841363,
      "loss": 0.5701,
      "step": 42510
    },
    {
      "epoch": 2.1118506009734777,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006310559253004868,
      "loss": 0.5951,
      "step": 42520
    },
    {
      "epoch": 2.112347273269097,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006310161915168372,
      "loss": 0.5869,
      "step": 42530
    },
    {
      "epoch": 2.1128439455647166,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006309764577331876,
      "loss": 0.579,
      "step": 42540
    },
    {
      "epoch": 2.113340617860336,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006309367239495381,
      "loss": 0.5473,
      "step": 42550
    },
    {
      "epoch": 2.113837290155955,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006308969901658886,
      "loss": 0.6045,
      "step": 42560
    },
    {
      "epoch": 2.1143339624515747,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006308572563822391,
      "loss": 0.5556,
      "step": 42570
    },
    {
      "epoch": 2.114830634747194,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0006308175225985895,
      "loss": 0.6007,
      "step": 42580
    },
    {
      "epoch": 2.115327307042813,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006307777888149399,
      "loss": 0.533,
      "step": 42590
    },
    {
      "epoch": 2.1158239793384324,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006307380550312904,
      "loss": 0.548,
      "step": 42600
    },
    {
      "epoch": 2.116320651634052,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006306983212476409,
      "loss": 0.562,
      "step": 42610
    },
    {
      "epoch": 2.1168173239296713,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0006306585874639913,
      "loss": 0.5785,
      "step": 42620
    },
    {
      "epoch": 2.1173139962252905,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0006306188536803418,
      "loss": 0.5775,
      "step": 42630
    },
    {
      "epoch": 2.1178106685209097,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006305791198966921,
      "loss": 0.5739,
      "step": 42640
    },
    {
      "epoch": 2.1183073408165294,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006305393861130426,
      "loss": 0.5826,
      "step": 42650
    },
    {
      "epoch": 2.1188040131121486,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006304996523293932,
      "loss": 0.5619,
      "step": 42660
    },
    {
      "epoch": 2.119300685407768,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006304599185457435,
      "loss": 0.567,
      "step": 42670
    },
    {
      "epoch": 2.1197973577033875,
      "grad_norm": 0.09765625,
      "learning_rate": 0.000630420184762094,
      "loss": 0.5476,
      "step": 42680
    },
    {
      "epoch": 2.1202940299990067,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006303804509784445,
      "loss": 0.5572,
      "step": 42690
    },
    {
      "epoch": 2.120790702294626,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006303407171947948,
      "loss": 0.5884,
      "step": 42700
    },
    {
      "epoch": 2.121287374590245,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0006303009834111454,
      "loss": 0.591,
      "step": 42710
    },
    {
      "epoch": 2.121784046885865,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0006302612496274958,
      "loss": 0.543,
      "step": 42720
    },
    {
      "epoch": 2.122280719181484,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006302215158438463,
      "loss": 0.5653,
      "step": 42730
    },
    {
      "epoch": 2.1227773914771033,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006301817820601967,
      "loss": 0.6003,
      "step": 42740
    },
    {
      "epoch": 2.1232740637727225,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006301420482765471,
      "loss": 0.58,
      "step": 42750
    },
    {
      "epoch": 2.123770736068342,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006301023144928977,
      "loss": 0.5922,
      "step": 42760
    },
    {
      "epoch": 2.1242674083639614,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006300625807092481,
      "loss": 0.6117,
      "step": 42770
    },
    {
      "epoch": 2.1247640806595807,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006300228469255985,
      "loss": 0.576,
      "step": 42780
    },
    {
      "epoch": 2.1252607529552003,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.000629983113141949,
      "loss": 0.5785,
      "step": 42790
    },
    {
      "epoch": 2.1257574252508196,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006299433793582994,
      "loss": 0.5766,
      "step": 42800
    },
    {
      "epoch": 2.126254097546439,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006299036455746499,
      "loss": 0.5651,
      "step": 42810
    },
    {
      "epoch": 2.126750769842058,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006298639117910004,
      "loss": 0.5559,
      "step": 42820
    },
    {
      "epoch": 2.1272474421376777,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006298241780073507,
      "loss": 0.5722,
      "step": 42830
    },
    {
      "epoch": 2.127744114433297,
      "grad_norm": 0.0869140625,
      "learning_rate": 0.0006297844442237012,
      "loss": 0.5456,
      "step": 42840
    },
    {
      "epoch": 2.128240786728916,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006297447104400517,
      "loss": 0.5748,
      "step": 42850
    },
    {
      "epoch": 2.128737459024536,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0006297049766564022,
      "loss": 0.6068,
      "step": 42860
    },
    {
      "epoch": 2.129234131320155,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006296652428727526,
      "loss": 0.5902,
      "step": 42870
    },
    {
      "epoch": 2.1297308036157743,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006296255090891031,
      "loss": 0.5661,
      "step": 42880
    },
    {
      "epoch": 2.1302274759113935,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0006295857753054535,
      "loss": 0.5611,
      "step": 42890
    },
    {
      "epoch": 2.130724148207013,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0006295460415218039,
      "loss": 0.5864,
      "step": 42900
    },
    {
      "epoch": 2.1312208205026324,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0006295063077381543,
      "loss": 0.5897,
      "step": 42910
    },
    {
      "epoch": 2.1317174927982516,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006294665739545049,
      "loss": 0.5606,
      "step": 42920
    },
    {
      "epoch": 2.1322141650938713,
      "grad_norm": 0.08544921875,
      "learning_rate": 0.0006294268401708553,
      "loss": 0.5695,
      "step": 42930
    },
    {
      "epoch": 2.1327108373894905,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006293871063872057,
      "loss": 0.5523,
      "step": 42940
    },
    {
      "epoch": 2.1332075096851097,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006293473726035562,
      "loss": 0.5766,
      "step": 42950
    },
    {
      "epoch": 2.133704181980729,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006293076388199067,
      "loss": 0.5649,
      "step": 42960
    },
    {
      "epoch": 2.1342008542763486,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006292679050362571,
      "loss": 0.5848,
      "step": 42970
    },
    {
      "epoch": 2.134697526571968,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006292281712526076,
      "loss": 0.5745,
      "step": 42980
    },
    {
      "epoch": 2.135194198867587,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.000629188437468958,
      "loss": 0.5442,
      "step": 42990
    },
    {
      "epoch": 2.1356908711632063,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006291487036853084,
      "loss": 0.5622,
      "step": 43000
    },
    {
      "epoch": 2.136187543458826,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.000629108969901659,
      "loss": 0.5485,
      "step": 43010
    },
    {
      "epoch": 2.1366842157544452,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006290692361180094,
      "loss": 0.5648,
      "step": 43020
    },
    {
      "epoch": 2.1371808880500645,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006290295023343598,
      "loss": 0.5578,
      "step": 43030
    },
    {
      "epoch": 2.137677560345684,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006289897685507103,
      "loss": 0.5757,
      "step": 43040
    },
    {
      "epoch": 2.1381742326413034,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006289500347670607,
      "loss": 0.5711,
      "step": 43050
    },
    {
      "epoch": 2.1386709049369226,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006289103009834111,
      "loss": 0.5715,
      "step": 43060
    },
    {
      "epoch": 2.139167577232542,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0006288705671997617,
      "loss": 0.5418,
      "step": 43070
    },
    {
      "epoch": 2.1396642495281615,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006288308334161121,
      "loss": 0.5691,
      "step": 43080
    },
    {
      "epoch": 2.1401609218237807,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0006287910996324625,
      "loss": 0.5663,
      "step": 43090
    },
    {
      "epoch": 2.1406575941194,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006287513658488129,
      "loss": 0.5602,
      "step": 43100
    },
    {
      "epoch": 2.141154266415019,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0006287116320651635,
      "loss": 0.5615,
      "step": 43110
    },
    {
      "epoch": 2.141650938710639,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006286718982815139,
      "loss": 0.5414,
      "step": 43120
    },
    {
      "epoch": 2.142147611006258,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006286321644978643,
      "loss": 0.5916,
      "step": 43130
    },
    {
      "epoch": 2.1426442833018773,
      "grad_norm": 0.08740234375,
      "learning_rate": 0.0006285924307142148,
      "loss": 0.5707,
      "step": 43140
    },
    {
      "epoch": 2.143140955597497,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006285526969305652,
      "loss": 0.5878,
      "step": 43150
    },
    {
      "epoch": 2.143637627893116,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006285129631469156,
      "loss": 0.5597,
      "step": 43160
    },
    {
      "epoch": 2.1441343001887354,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006284732293632662,
      "loss": 0.5935,
      "step": 43170
    },
    {
      "epoch": 2.1446309724843546,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006284334955796166,
      "loss": 0.5761,
      "step": 43180
    },
    {
      "epoch": 2.1451276447799743,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.000628393761795967,
      "loss": 0.573,
      "step": 43190
    },
    {
      "epoch": 2.1456243170755935,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0006283540280123175,
      "loss": 0.6216,
      "step": 43200
    },
    {
      "epoch": 2.1461209893712128,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.000628314294228668,
      "loss": 0.5643,
      "step": 43210
    },
    {
      "epoch": 2.1466176616668324,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006282745604450184,
      "loss": 0.5654,
      "step": 43220
    },
    {
      "epoch": 2.1471143339624517,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006282348266613689,
      "loss": 0.586,
      "step": 43230
    },
    {
      "epoch": 2.147611006258071,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006281950928777193,
      "loss": 0.5753,
      "step": 43240
    },
    {
      "epoch": 2.14810767855369,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006281553590940697,
      "loss": 0.5611,
      "step": 43250
    },
    {
      "epoch": 2.14860435084931,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006281156253104203,
      "loss": 0.5534,
      "step": 43260
    },
    {
      "epoch": 2.149101023144929,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0006280758915267707,
      "loss": 0.5512,
      "step": 43270
    },
    {
      "epoch": 2.1495976954405482,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006280361577431211,
      "loss": 0.6057,
      "step": 43280
    },
    {
      "epoch": 2.150094367736168,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0006279964239594716,
      "loss": 0.6012,
      "step": 43290
    },
    {
      "epoch": 2.150591040031787,
      "grad_norm": 0.107421875,
      "learning_rate": 0.000627956690175822,
      "loss": 0.5826,
      "step": 43300
    },
    {
      "epoch": 2.1510877123274064,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006279169563921726,
      "loss": 0.5674,
      "step": 43310
    },
    {
      "epoch": 2.1515843846230256,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006278772226085229,
      "loss": 0.5706,
      "step": 43320
    },
    {
      "epoch": 2.1520810569186453,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006278374888248734,
      "loss": 0.5826,
      "step": 43330
    },
    {
      "epoch": 2.1525777292142645,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0006277977550412239,
      "loss": 0.56,
      "step": 43340
    },
    {
      "epoch": 2.1530744015098837,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006277580212575742,
      "loss": 0.6019,
      "step": 43350
    },
    {
      "epoch": 2.153571073805503,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006277182874739247,
      "loss": 0.5726,
      "step": 43360
    },
    {
      "epoch": 2.1540677461011226,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006276785536902752,
      "loss": 0.5966,
      "step": 43370
    },
    {
      "epoch": 2.154564418396742,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006276388199066256,
      "loss": 0.5368,
      "step": 43380
    },
    {
      "epoch": 2.155061090692361,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006275990861229761,
      "loss": 0.5404,
      "step": 43390
    },
    {
      "epoch": 2.1555577629879803,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006275593523393265,
      "loss": 0.5567,
      "step": 43400
    },
    {
      "epoch": 2.1560544352836,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006275196185556769,
      "loss": 0.5695,
      "step": 43410
    },
    {
      "epoch": 2.156551107579219,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006274798847720275,
      "loss": 0.5826,
      "step": 43420
    },
    {
      "epoch": 2.1570477798748384,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0006274401509883779,
      "loss": 0.5905,
      "step": 43430
    },
    {
      "epoch": 2.157544452170458,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006274004172047283,
      "loss": 0.572,
      "step": 43440
    },
    {
      "epoch": 2.1580411244660773,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0006273606834210788,
      "loss": 0.583,
      "step": 43450
    },
    {
      "epoch": 2.1585377967616965,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0006273209496374292,
      "loss": 0.5851,
      "step": 43460
    },
    {
      "epoch": 2.1590344690573158,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006272812158537798,
      "loss": 0.5956,
      "step": 43470
    },
    {
      "epoch": 2.1595311413529354,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006272414820701302,
      "loss": 0.5583,
      "step": 43480
    },
    {
      "epoch": 2.1600278136485547,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006272017482864806,
      "loss": 0.6028,
      "step": 43490
    },
    {
      "epoch": 2.160524485944174,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0006271620145028311,
      "loss": 0.5814,
      "step": 43500
    },
    {
      "epoch": 2.1610211582397936,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006271222807191814,
      "loss": 0.553,
      "step": 43510
    },
    {
      "epoch": 2.161517830535413,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.000627082546935532,
      "loss": 0.5377,
      "step": 43520
    },
    {
      "epoch": 2.162014502831032,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0006270428131518825,
      "loss": 0.5696,
      "step": 43530
    },
    {
      "epoch": 2.1625111751266513,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006270030793682328,
      "loss": 0.534,
      "step": 43540
    },
    {
      "epoch": 2.163007847422271,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006269633455845833,
      "loss": 0.5761,
      "step": 43550
    },
    {
      "epoch": 2.16350451971789,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006269236118009338,
      "loss": 0.5962,
      "step": 43560
    },
    {
      "epoch": 2.1640011920135094,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006268838780172842,
      "loss": 0.5698,
      "step": 43570
    },
    {
      "epoch": 2.164497864309129,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006268441442336347,
      "loss": 0.5536,
      "step": 43580
    },
    {
      "epoch": 2.1649945366047483,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006268044104499851,
      "loss": 0.5618,
      "step": 43590
    },
    {
      "epoch": 2.1654912089003675,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006267646766663356,
      "loss": 0.5572,
      "step": 43600
    },
    {
      "epoch": 2.1659878811959867,
      "grad_norm": 0.115234375,
      "learning_rate": 0.000626724942882686,
      "loss": 0.5328,
      "step": 43610
    },
    {
      "epoch": 2.1664845534916064,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006266852090990365,
      "loss": 0.5961,
      "step": 43620
    },
    {
      "epoch": 2.1669812257872256,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.000626645475315387,
      "loss": 0.5593,
      "step": 43630
    },
    {
      "epoch": 2.167477898082845,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006266057415317374,
      "loss": 0.5712,
      "step": 43640
    },
    {
      "epoch": 2.167974570378464,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0006265660077480878,
      "loss": 0.5823,
      "step": 43650
    },
    {
      "epoch": 2.1684712426740838,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006265262739644383,
      "loss": 0.5414,
      "step": 43660
    },
    {
      "epoch": 2.168967914969703,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006264865401807888,
      "loss": 0.5812,
      "step": 43670
    },
    {
      "epoch": 2.169464587265322,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0006264468063971392,
      "loss": 0.5957,
      "step": 43680
    },
    {
      "epoch": 2.169961259560942,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006264070726134897,
      "loss": 0.5713,
      "step": 43690
    },
    {
      "epoch": 2.170457931856561,
      "grad_norm": 0.11328125,
      "learning_rate": 0.00062636733882984,
      "loss": 0.5753,
      "step": 43700
    },
    {
      "epoch": 2.1709546041521803,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006263276050461905,
      "loss": 0.5447,
      "step": 43710
    },
    {
      "epoch": 2.1714512764477996,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006262878712625411,
      "loss": 0.5614,
      "step": 43720
    },
    {
      "epoch": 2.1719479487434192,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006262481374788914,
      "loss": 0.5699,
      "step": 43730
    },
    {
      "epoch": 2.1724446210390385,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006262084036952419,
      "loss": 0.5488,
      "step": 43740
    },
    {
      "epoch": 2.1729412933346577,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006261686699115924,
      "loss": 0.5825,
      "step": 43750
    },
    {
      "epoch": 2.173437965630277,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006261289361279428,
      "loss": 0.5778,
      "step": 43760
    },
    {
      "epoch": 2.1739346379258966,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0006260892023442933,
      "loss": 0.5551,
      "step": 43770
    },
    {
      "epoch": 2.174431310221516,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006260494685606437,
      "loss": 0.5708,
      "step": 43780
    },
    {
      "epoch": 2.174927982517135,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.0006260097347769942,
      "loss": 0.5614,
      "step": 43790
    },
    {
      "epoch": 2.1754246548127547,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006259700009933446,
      "loss": 0.5647,
      "step": 43800
    },
    {
      "epoch": 2.175921327108374,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.000625930267209695,
      "loss": 0.5616,
      "step": 43810
    },
    {
      "epoch": 2.176417999403993,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006258905334260456,
      "loss": 0.5607,
      "step": 43820
    },
    {
      "epoch": 2.1769146716996124,
      "grad_norm": 0.09765625,
      "learning_rate": 0.000625850799642396,
      "loss": 0.568,
      "step": 43830
    },
    {
      "epoch": 2.177411343995232,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006258110658587464,
      "loss": 0.5598,
      "step": 43840
    },
    {
      "epoch": 2.1779080162908513,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006257713320750969,
      "loss": 0.5484,
      "step": 43850
    },
    {
      "epoch": 2.1784046885864705,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006257315982914473,
      "loss": 0.572,
      "step": 43860
    },
    {
      "epoch": 2.17890136088209,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006256918645077978,
      "loss": 0.5755,
      "step": 43870
    },
    {
      "epoch": 2.1793980331777094,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006256521307241483,
      "loss": 0.5544,
      "step": 43880
    },
    {
      "epoch": 2.1798947054733286,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006256123969404987,
      "loss": 0.5519,
      "step": 43890
    },
    {
      "epoch": 2.180391377768948,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006255726631568491,
      "loss": 0.5935,
      "step": 43900
    },
    {
      "epoch": 2.1808880500645675,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006255329293731996,
      "loss": 0.562,
      "step": 43910
    },
    {
      "epoch": 2.1813847223601868,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0006254931955895501,
      "loss": 0.562,
      "step": 43920
    },
    {
      "epoch": 2.181881394655806,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006254534618059005,
      "loss": 0.5664,
      "step": 43930
    },
    {
      "epoch": 2.1823780669514257,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.000625413728022251,
      "loss": 0.5742,
      "step": 43940
    },
    {
      "epoch": 2.182874739247045,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006253739942386014,
      "loss": 0.5476,
      "step": 43950
    },
    {
      "epoch": 2.183371411542664,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006253342604549518,
      "loss": 0.6065,
      "step": 43960
    },
    {
      "epoch": 2.1838680838382833,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0006252945266713023,
      "loss": 0.5835,
      "step": 43970
    },
    {
      "epoch": 2.184364756133903,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006252547928876528,
      "loss": 0.5412,
      "step": 43980
    },
    {
      "epoch": 2.1848614284295222,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0006252150591040032,
      "loss": 0.5947,
      "step": 43990
    },
    {
      "epoch": 2.1853581007251415,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006251753253203536,
      "loss": 0.57,
      "step": 44000
    },
    {
      "epoch": 2.1858547730207607,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006251355915367041,
      "loss": 0.5734,
      "step": 44010
    },
    {
      "epoch": 2.1863514453163804,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006250958577530546,
      "loss": 0.5586,
      "step": 44020
    },
    {
      "epoch": 2.1868481176119996,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.000625056123969405,
      "loss": 0.5857,
      "step": 44030
    },
    {
      "epoch": 2.187344789907619,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.0006250163901857555,
      "loss": 0.5902,
      "step": 44040
    },
    {
      "epoch": 2.1878414622032385,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006249766564021059,
      "loss": 0.5731,
      "step": 44050
    },
    {
      "epoch": 2.1883381344988577,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006249369226184563,
      "loss": 0.5886,
      "step": 44060
    },
    {
      "epoch": 2.188834806794477,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0006248971888348069,
      "loss": 0.5806,
      "step": 44070
    },
    {
      "epoch": 2.189331479090096,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006248574550511573,
      "loss": 0.5795,
      "step": 44080
    },
    {
      "epoch": 2.189828151385716,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006248177212675077,
      "loss": 0.5496,
      "step": 44090
    },
    {
      "epoch": 2.190324823681335,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006247779874838582,
      "loss": 0.551,
      "step": 44100
    },
    {
      "epoch": 2.1908214959769543,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006247382537002086,
      "loss": 0.5759,
      "step": 44110
    },
    {
      "epoch": 2.1913181682725735,
      "grad_norm": 0.142578125,
      "learning_rate": 0.000624698519916559,
      "loss": 0.5475,
      "step": 44120
    },
    {
      "epoch": 2.191814840568193,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0006246587861329096,
      "loss": 0.542,
      "step": 44130
    },
    {
      "epoch": 2.1923115128638124,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.00062461905234926,
      "loss": 0.5988,
      "step": 44140
    },
    {
      "epoch": 2.1928081851594317,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006245793185656104,
      "loss": 0.583,
      "step": 44150
    },
    {
      "epoch": 2.1933048574550513,
      "grad_norm": 0.087890625,
      "learning_rate": 0.0006245395847819609,
      "loss": 0.5564,
      "step": 44160
    },
    {
      "epoch": 2.1938015297506706,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006244998509983114,
      "loss": 0.5518,
      "step": 44170
    },
    {
      "epoch": 2.19429820204629,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006244601172146618,
      "loss": 0.523,
      "step": 44180
    },
    {
      "epoch": 2.194794874341909,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006244203834310122,
      "loss": 0.5687,
      "step": 44190
    },
    {
      "epoch": 2.1952915466375287,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006243806496473627,
      "loss": 0.5617,
      "step": 44200
    },
    {
      "epoch": 2.195788218933148,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006243409158637132,
      "loss": 0.5695,
      "step": 44210
    },
    {
      "epoch": 2.196284891228767,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006243011820800635,
      "loss": 0.5669,
      "step": 44220
    },
    {
      "epoch": 2.196781563524387,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006242614482964141,
      "loss": 0.5852,
      "step": 44230
    },
    {
      "epoch": 2.197278235820006,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006242217145127645,
      "loss": 0.5893,
      "step": 44240
    },
    {
      "epoch": 2.1977749081156253,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0006241819807291149,
      "loss": 0.5775,
      "step": 44250
    },
    {
      "epoch": 2.1982715804112445,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006241422469454654,
      "loss": 0.5627,
      "step": 44260
    },
    {
      "epoch": 2.198768252706864,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0006241025131618159,
      "loss": 0.5642,
      "step": 44270
    },
    {
      "epoch": 2.1992649250024834,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006240627793781663,
      "loss": 0.54,
      "step": 44280
    },
    {
      "epoch": 2.1997615972981026,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006240230455945168,
      "loss": 0.5426,
      "step": 44290
    },
    {
      "epoch": 2.2002582695937223,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006239833118108672,
      "loss": 0.5992,
      "step": 44300
    },
    {
      "epoch": 2.2007549418893415,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006239435780272176,
      "loss": 0.5477,
      "step": 44310
    },
    {
      "epoch": 2.2012516141849607,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006239038442435682,
      "loss": 0.5361,
      "step": 44320
    },
    {
      "epoch": 2.20174828648058,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006238641104599186,
      "loss": 0.5513,
      "step": 44330
    },
    {
      "epoch": 2.2022449587761996,
      "grad_norm": 0.1015625,
      "learning_rate": 0.000623824376676269,
      "loss": 0.5877,
      "step": 44340
    },
    {
      "epoch": 2.202741631071819,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006237846428926195,
      "loss": 0.5765,
      "step": 44350
    },
    {
      "epoch": 2.203238303367438,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006237449091089699,
      "loss": 0.5669,
      "step": 44360
    },
    {
      "epoch": 2.2037349756630573,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006237051753253205,
      "loss": 0.5862,
      "step": 44370
    },
    {
      "epoch": 2.204231647958677,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0006236654415416708,
      "loss": 0.5514,
      "step": 44380
    },
    {
      "epoch": 2.204728320254296,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006236257077580213,
      "loss": 0.572,
      "step": 44390
    },
    {
      "epoch": 2.2052249925499154,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006235859739743718,
      "loss": 0.5707,
      "step": 44400
    },
    {
      "epoch": 2.205721664845535,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0006235462401907221,
      "loss": 0.5504,
      "step": 44410
    },
    {
      "epoch": 2.2062183371411543,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006235065064070727,
      "loss": 0.5581,
      "step": 44420
    },
    {
      "epoch": 2.2067150094367736,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006234667726234232,
      "loss": 0.5712,
      "step": 44430
    },
    {
      "epoch": 2.207211681732393,
      "grad_norm": 0.125,
      "learning_rate": 0.0006234270388397735,
      "loss": 0.5782,
      "step": 44440
    },
    {
      "epoch": 2.2077083540280125,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.000623387305056124,
      "loss": 0.593,
      "step": 44450
    },
    {
      "epoch": 2.2082050263236317,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0006233475712724744,
      "loss": 0.5679,
      "step": 44460
    },
    {
      "epoch": 2.208701698619251,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0006233078374888248,
      "loss": 0.5535,
      "step": 44470
    },
    {
      "epoch": 2.20919837091487,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006232681037051754,
      "loss": 0.5747,
      "step": 44480
    },
    {
      "epoch": 2.20969504321049,
      "grad_norm": 0.125,
      "learning_rate": 0.0006232283699215258,
      "loss": 0.5539,
      "step": 44490
    },
    {
      "epoch": 2.210191715506109,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0006231886361378763,
      "loss": 0.5745,
      "step": 44500
    },
    {
      "epoch": 2.2106883878017283,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006231489023542267,
      "loss": 0.5689,
      "step": 44510
    },
    {
      "epoch": 2.211185060097348,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006231091685705771,
      "loss": 0.5573,
      "step": 44520
    },
    {
      "epoch": 2.211681732392967,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0006230694347869277,
      "loss": 0.5812,
      "step": 44530
    },
    {
      "epoch": 2.2121784046885864,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006230297010032781,
      "loss": 0.5662,
      "step": 44540
    },
    {
      "epoch": 2.2126750769842056,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006229899672196285,
      "loss": 0.5748,
      "step": 44550
    },
    {
      "epoch": 2.2131717492798253,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.000622950233435979,
      "loss": 0.5514,
      "step": 44560
    },
    {
      "epoch": 2.2136684215754445,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0006229104996523293,
      "loss": 0.5866,
      "step": 44570
    },
    {
      "epoch": 2.2141650938710637,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006228707658686799,
      "loss": 0.598,
      "step": 44580
    },
    {
      "epoch": 2.2146617661666834,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006228310320850304,
      "loss": 0.5792,
      "step": 44590
    },
    {
      "epoch": 2.2151584384623026,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006227912983013807,
      "loss": 0.572,
      "step": 44600
    },
    {
      "epoch": 2.215655110757922,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0006227515645177312,
      "loss": 0.5688,
      "step": 44610
    },
    {
      "epoch": 2.216151783053541,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006227118307340818,
      "loss": 0.5636,
      "step": 44620
    },
    {
      "epoch": 2.2166484553491608,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006226720969504321,
      "loss": 0.5957,
      "step": 44630
    },
    {
      "epoch": 2.21714512764478,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006226323631667826,
      "loss": 0.5581,
      "step": 44640
    },
    {
      "epoch": 2.2176417999403992,
      "grad_norm": 0.125,
      "learning_rate": 0.000622592629383133,
      "loss": 0.5876,
      "step": 44650
    },
    {
      "epoch": 2.218138472236019,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006225528955994835,
      "loss": 0.5619,
      "step": 44660
    },
    {
      "epoch": 2.218635144531638,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.000622513161815834,
      "loss": 0.567,
      "step": 44670
    },
    {
      "epoch": 2.2191318168272574,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006224734280321844,
      "loss": 0.5615,
      "step": 44680
    },
    {
      "epoch": 2.2196284891228766,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006224336942485349,
      "loss": 0.5507,
      "step": 44690
    },
    {
      "epoch": 2.2201251614184963,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006223939604648853,
      "loss": 0.5586,
      "step": 44700
    },
    {
      "epoch": 2.2206218337141155,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006223542266812357,
      "loss": 0.5518,
      "step": 44710
    },
    {
      "epoch": 2.2211185060097347,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006223144928975862,
      "loss": 0.5889,
      "step": 44720
    },
    {
      "epoch": 2.221615178305354,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006222747591139367,
      "loss": 0.5527,
      "step": 44730
    },
    {
      "epoch": 2.2221118506009736,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006222350253302871,
      "loss": 0.5946,
      "step": 44740
    },
    {
      "epoch": 2.222608522896593,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006221952915466376,
      "loss": 0.5737,
      "step": 44750
    },
    {
      "epoch": 2.223105195192212,
      "grad_norm": 0.091796875,
      "learning_rate": 0.000622155557762988,
      "loss": 0.5618,
      "step": 44760
    },
    {
      "epoch": 2.2236018674878317,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0006221158239793384,
      "loss": 0.5826,
      "step": 44770
    },
    {
      "epoch": 2.224098539783451,
      "grad_norm": 0.115234375,
      "learning_rate": 0.000622076090195689,
      "loss": 0.5718,
      "step": 44780
    },
    {
      "epoch": 2.22459521207907,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0006220363564120393,
      "loss": 0.5569,
      "step": 44790
    },
    {
      "epoch": 2.2250918843746894,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006219966226283898,
      "loss": 0.5731,
      "step": 44800
    },
    {
      "epoch": 2.225588556670309,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006219568888447403,
      "loss": 0.5907,
      "step": 44810
    },
    {
      "epoch": 2.2260852289659283,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006219171550610907,
      "loss": 0.5298,
      "step": 44820
    },
    {
      "epoch": 2.2265819012615475,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006218774212774412,
      "loss": 0.5683,
      "step": 44830
    },
    {
      "epoch": 2.2270785735571668,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006218376874937916,
      "loss": 0.5793,
      "step": 44840
    },
    {
      "epoch": 2.2275752458527864,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0006217979537101421,
      "loss": 0.5538,
      "step": 44850
    },
    {
      "epoch": 2.2280719181484057,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006217582199264925,
      "loss": 0.5721,
      "step": 44860
    },
    {
      "epoch": 2.228568590444025,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006217184861428429,
      "loss": 0.5709,
      "step": 44870
    },
    {
      "epoch": 2.2290652627396446,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006216787523591935,
      "loss": 0.5901,
      "step": 44880
    },
    {
      "epoch": 2.229561935035264,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006216390185755439,
      "loss": 0.5396,
      "step": 44890
    },
    {
      "epoch": 2.230058607330883,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006215992847918943,
      "loss": 0.5628,
      "step": 44900
    },
    {
      "epoch": 2.2305552796265022,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006215595510082448,
      "loss": 0.5887,
      "step": 44910
    },
    {
      "epoch": 2.231051951922122,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006215198172245952,
      "loss": 0.5642,
      "step": 44920
    },
    {
      "epoch": 2.231548624217741,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006214800834409457,
      "loss": 0.5751,
      "step": 44930
    },
    {
      "epoch": 2.2320452965133604,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0006214403496572962,
      "loss": 0.572,
      "step": 44940
    },
    {
      "epoch": 2.23254196880898,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006214006158736466,
      "loss": 0.5656,
      "step": 44950
    },
    {
      "epoch": 2.2330386411045993,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.000621360882089997,
      "loss": 0.5807,
      "step": 44960
    },
    {
      "epoch": 2.2335353134002185,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006213211483063475,
      "loss": 0.5496,
      "step": 44970
    },
    {
      "epoch": 2.2340319856958377,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.000621281414522698,
      "loss": 0.5722,
      "step": 44980
    },
    {
      "epoch": 2.2345286579914574,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006212416807390484,
      "loss": 0.5721,
      "step": 44990
    },
    {
      "epoch": 2.2350253302870766,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006212019469553989,
      "loss": 0.5698,
      "step": 45000
    },
    {
      "epoch": 2.235522002582696,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006211622131717493,
      "loss": 0.5797,
      "step": 45010
    },
    {
      "epoch": 2.2360186748783155,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006211224793880997,
      "loss": 0.5671,
      "step": 45020
    },
    {
      "epoch": 2.2365153471739347,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006210827456044503,
      "loss": 0.5678,
      "step": 45030
    },
    {
      "epoch": 2.237012019469554,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0006210430118208007,
      "loss": 0.5494,
      "step": 45040
    },
    {
      "epoch": 2.237508691765173,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006210032780371511,
      "loss": 0.5662,
      "step": 45050
    },
    {
      "epoch": 2.238005364060793,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006209635442535015,
      "loss": 0.5825,
      "step": 45060
    },
    {
      "epoch": 2.238502036356412,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.000620923810469852,
      "loss": 0.5997,
      "step": 45070
    },
    {
      "epoch": 2.2389987086520313,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006208840766862025,
      "loss": 0.5766,
      "step": 45080
    },
    {
      "epoch": 2.2394953809476505,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0006208443429025529,
      "loss": 0.5571,
      "step": 45090
    },
    {
      "epoch": 2.23999205324327,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006208046091189034,
      "loss": 0.5639,
      "step": 45100
    },
    {
      "epoch": 2.2404887255388894,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006207648753352538,
      "loss": 0.5667,
      "step": 45110
    },
    {
      "epoch": 2.2409853978345087,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006207251415516042,
      "loss": 0.5826,
      "step": 45120
    },
    {
      "epoch": 2.2414820701301283,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006206854077679548,
      "loss": 0.5695,
      "step": 45130
    },
    {
      "epoch": 2.2419787424257476,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006206456739843052,
      "loss": 0.5393,
      "step": 45140
    },
    {
      "epoch": 2.242475414721367,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006206059402006556,
      "loss": 0.5668,
      "step": 45150
    },
    {
      "epoch": 2.242972087016986,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006205662064170061,
      "loss": 0.5789,
      "step": 45160
    },
    {
      "epoch": 2.2434687593126057,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006205264726333565,
      "loss": 0.5663,
      "step": 45170
    },
    {
      "epoch": 2.243965431608225,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.000620486738849707,
      "loss": 0.5535,
      "step": 45180
    },
    {
      "epoch": 2.244462103903844,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0006204470050660575,
      "loss": 0.6223,
      "step": 45190
    },
    {
      "epoch": 2.2449587761994634,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006204072712824079,
      "loss": 0.5743,
      "step": 45200
    },
    {
      "epoch": 2.245455448495083,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006203675374987583,
      "loss": 0.57,
      "step": 45210
    },
    {
      "epoch": 2.2459521207907023,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0006203278037151088,
      "loss": 0.5516,
      "step": 45220
    },
    {
      "epoch": 2.2464487930863215,
      "grad_norm": 0.15625,
      "learning_rate": 0.0006202880699314593,
      "loss": 0.5767,
      "step": 45230
    },
    {
      "epoch": 2.246945465381941,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006202483361478097,
      "loss": 0.558,
      "step": 45240
    },
    {
      "epoch": 2.2474421376775604,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0006202086023641601,
      "loss": 0.5542,
      "step": 45250
    },
    {
      "epoch": 2.2479388099731796,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006201688685805106,
      "loss": 0.5535,
      "step": 45260
    },
    {
      "epoch": 2.248435482268799,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006201291347968611,
      "loss": 0.5627,
      "step": 45270
    },
    {
      "epoch": 2.2489321545644185,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0006200894010132115,
      "loss": 0.5727,
      "step": 45280
    },
    {
      "epoch": 2.2494288268600378,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.000620049667229562,
      "loss": 0.5784,
      "step": 45290
    },
    {
      "epoch": 2.249925499155657,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006200099334459124,
      "loss": 0.5787,
      "step": 45300
    },
    {
      "epoch": 2.2504221714512767,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006199701996622628,
      "loss": 0.5643,
      "step": 45310
    },
    {
      "epoch": 2.250918843746896,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0006199304658786133,
      "loss": 0.5724,
      "step": 45320
    },
    {
      "epoch": 2.251415516042515,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006198907320949638,
      "loss": 0.5998,
      "step": 45330
    },
    {
      "epoch": 2.2519121883381343,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0006198509983113142,
      "loss": 0.5486,
      "step": 45340
    },
    {
      "epoch": 2.252408860633754,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006198112645276647,
      "loss": 0.559,
      "step": 45350
    },
    {
      "epoch": 2.2529055329293732,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006197715307440151,
      "loss": 0.5696,
      "step": 45360
    },
    {
      "epoch": 2.2534022052249925,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006197317969603655,
      "loss": 0.5941,
      "step": 45370
    },
    {
      "epoch": 2.253898877520612,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006196920631767161,
      "loss": 0.5569,
      "step": 45380
    },
    {
      "epoch": 2.2543955498162314,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006196523293930665,
      "loss": 0.5771,
      "step": 45390
    },
    {
      "epoch": 2.2548922221118506,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.000619612595609417,
      "loss": 0.5813,
      "step": 45400
    },
    {
      "epoch": 2.25538889440747,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0006195728618257674,
      "loss": 0.5656,
      "step": 45410
    },
    {
      "epoch": 2.2558855667030895,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006195331280421178,
      "loss": 0.5561,
      "step": 45420
    },
    {
      "epoch": 2.2563822389987087,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006194933942584684,
      "loss": 0.5836,
      "step": 45430
    },
    {
      "epoch": 2.256878911294328,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006194536604748187,
      "loss": 0.5693,
      "step": 45440
    },
    {
      "epoch": 2.257375583589947,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0006194139266911692,
      "loss": 0.5708,
      "step": 45450
    },
    {
      "epoch": 2.257872255885567,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006193741929075197,
      "loss": 0.5635,
      "step": 45460
    },
    {
      "epoch": 2.258368928181186,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.00061933445912387,
      "loss": 0.5647,
      "step": 45470
    },
    {
      "epoch": 2.2588656004768053,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006192947253402206,
      "loss": 0.5577,
      "step": 45480
    },
    {
      "epoch": 2.2593622727724245,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0006192549915565711,
      "loss": 0.5508,
      "step": 45490
    },
    {
      "epoch": 2.259858945068044,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006192152577729214,
      "loss": 0.5782,
      "step": 45500
    },
    {
      "epoch": 2.2603556173636634,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006191755239892719,
      "loss": 0.5538,
      "step": 45510
    },
    {
      "epoch": 2.2608522896592826,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006191357902056223,
      "loss": 0.5579,
      "step": 45520
    },
    {
      "epoch": 2.2613489619549023,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006190960564219727,
      "loss": 0.5628,
      "step": 45530
    },
    {
      "epoch": 2.2618456342505215,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006190563226383233,
      "loss": 0.5516,
      "step": 45540
    },
    {
      "epoch": 2.2623423065461408,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006190165888546737,
      "loss": 0.5491,
      "step": 45550
    },
    {
      "epoch": 2.26283897884176,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006189768550710242,
      "loss": 0.5538,
      "step": 45560
    },
    {
      "epoch": 2.2633356511373797,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0006189371212873746,
      "loss": 0.5748,
      "step": 45570
    },
    {
      "epoch": 2.263832323432999,
      "grad_norm": 0.130859375,
      "learning_rate": 0.000618897387503725,
      "loss": 0.5923,
      "step": 45580
    },
    {
      "epoch": 2.264328995728618,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006188576537200756,
      "loss": 0.5539,
      "step": 45590
    },
    {
      "epoch": 2.264825668024238,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.000618817919936426,
      "loss": 0.5704,
      "step": 45600
    },
    {
      "epoch": 2.265322340319857,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006187781861527764,
      "loss": 0.561,
      "step": 45610
    },
    {
      "epoch": 2.2658190126154762,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006187384523691269,
      "loss": 0.5745,
      "step": 45620
    },
    {
      "epoch": 2.2663156849110955,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006186987185854772,
      "loss": 0.5669,
      "step": 45630
    },
    {
      "epoch": 2.266812357206715,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006186589848018278,
      "loss": 0.5674,
      "step": 45640
    },
    {
      "epoch": 2.2673090295023344,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006186192510181783,
      "loss": 0.5598,
      "step": 45650
    },
    {
      "epoch": 2.2678057017979536,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006185795172345286,
      "loss": 0.5784,
      "step": 45660
    },
    {
      "epoch": 2.2683023740935733,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006185397834508791,
      "loss": 0.6022,
      "step": 45670
    },
    {
      "epoch": 2.2687990463891925,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006185000496672297,
      "loss": 0.567,
      "step": 45680
    },
    {
      "epoch": 2.2692957186848117,
      "grad_norm": 0.10546875,
      "learning_rate": 0.00061846031588358,
      "loss": 0.5606,
      "step": 45690
    },
    {
      "epoch": 2.269792390980431,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006184205820999305,
      "loss": 0.5446,
      "step": 45700
    },
    {
      "epoch": 2.2702890632760506,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006183808483162809,
      "loss": 0.5699,
      "step": 45710
    },
    {
      "epoch": 2.27078573557167,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006183411145326314,
      "loss": 0.5412,
      "step": 45720
    },
    {
      "epoch": 2.271282407867289,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006183013807489819,
      "loss": 0.5655,
      "step": 45730
    },
    {
      "epoch": 2.2717790801629087,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006182616469653323,
      "loss": 0.5383,
      "step": 45740
    },
    {
      "epoch": 2.272275752458528,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0006182219131816828,
      "loss": 0.565,
      "step": 45750
    },
    {
      "epoch": 2.272772424754147,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006181821793980332,
      "loss": 0.5611,
      "step": 45760
    },
    {
      "epoch": 2.2732690970497664,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.0006181424456143836,
      "loss": 0.5672,
      "step": 45770
    },
    {
      "epoch": 2.273765769345386,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006181027118307342,
      "loss": 0.6097,
      "step": 45780
    },
    {
      "epoch": 2.2742624416410053,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006180629780470846,
      "loss": 0.5667,
      "step": 45790
    },
    {
      "epoch": 2.2747591139366246,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000618023244263435,
      "loss": 0.5503,
      "step": 45800
    },
    {
      "epoch": 2.275255786232244,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006179835104797855,
      "loss": 0.5652,
      "step": 45810
    },
    {
      "epoch": 2.2757524585278635,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006179437766961359,
      "loss": 0.566,
      "step": 45820
    },
    {
      "epoch": 2.2762491308234827,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006179040429124863,
      "loss": 0.5466,
      "step": 45830
    },
    {
      "epoch": 2.276745803119102,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006178643091288369,
      "loss": 0.5661,
      "step": 45840
    },
    {
      "epoch": 2.277242475414721,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006178245753451873,
      "loss": 0.548,
      "step": 45850
    },
    {
      "epoch": 2.277739147710341,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006177848415615377,
      "loss": 0.5579,
      "step": 45860
    },
    {
      "epoch": 2.27823582000596,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006177451077778882,
      "loss": 0.566,
      "step": 45870
    },
    {
      "epoch": 2.2787324923015793,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006177053739942387,
      "loss": 0.5508,
      "step": 45880
    },
    {
      "epoch": 2.279229164597199,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006176656402105891,
      "loss": 0.5312,
      "step": 45890
    },
    {
      "epoch": 2.279725836892818,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006176259064269395,
      "loss": 0.5519,
      "step": 45900
    },
    {
      "epoch": 2.2802225091884374,
      "grad_norm": 0.154296875,
      "learning_rate": 0.00061758617264329,
      "loss": 0.5566,
      "step": 45910
    },
    {
      "epoch": 2.2807191814840566,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0006175464388596404,
      "loss": 0.5298,
      "step": 45920
    },
    {
      "epoch": 2.2812158537796763,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0006175067050759908,
      "loss": 0.5844,
      "step": 45930
    },
    {
      "epoch": 2.2817125260752955,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006174669712923414,
      "loss": 0.5758,
      "step": 45940
    },
    {
      "epoch": 2.2822091983709147,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006174272375086918,
      "loss": 0.5557,
      "step": 45950
    },
    {
      "epoch": 2.2827058706665344,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0006173875037250422,
      "loss": 0.5717,
      "step": 45960
    },
    {
      "epoch": 2.2832025429621536,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006173477699413927,
      "loss": 0.5456,
      "step": 45970
    },
    {
      "epoch": 2.283699215257773,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006173080361577431,
      "loss": 0.5535,
      "step": 45980
    },
    {
      "epoch": 2.284195887553392,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006172683023740936,
      "loss": 0.575,
      "step": 45990
    },
    {
      "epoch": 2.2846925598490118,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006172285685904441,
      "loss": 0.53,
      "step": 46000
    },
    {
      "epoch": 2.285189232144631,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0006171888348067945,
      "loss": 0.5599,
      "step": 46010
    },
    {
      "epoch": 2.28568590444025,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006171491010231449,
      "loss": 0.5837,
      "step": 46020
    },
    {
      "epoch": 2.28618257673587,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006171093672394954,
      "loss": 0.5603,
      "step": 46030
    },
    {
      "epoch": 2.286679249031489,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0006170696334558459,
      "loss": 0.5613,
      "step": 46040
    },
    {
      "epoch": 2.2871759213271083,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006170298996721963,
      "loss": 0.5899,
      "step": 46050
    },
    {
      "epoch": 2.2876725936227276,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0006169901658885468,
      "loss": 0.6059,
      "step": 46060
    },
    {
      "epoch": 2.2881692659183472,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006169504321048972,
      "loss": 0.5521,
      "step": 46070
    },
    {
      "epoch": 2.2886659382139665,
      "grad_norm": 0.08642578125,
      "learning_rate": 0.0006169106983212476,
      "loss": 0.5426,
      "step": 46080
    },
    {
      "epoch": 2.2891626105095857,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0006168709645375982,
      "loss": 0.5622,
      "step": 46090
    },
    {
      "epoch": 2.2896592828052054,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0006168312307539486,
      "loss": 0.5883,
      "step": 46100
    },
    {
      "epoch": 2.2901559551008246,
      "grad_norm": 0.1328125,
      "learning_rate": 0.000616791496970299,
      "loss": 0.5705,
      "step": 46110
    },
    {
      "epoch": 2.290652627396444,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006167517631866494,
      "loss": 0.5991,
      "step": 46120
    },
    {
      "epoch": 2.291149299692063,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.000616712029403,
      "loss": 0.5995,
      "step": 46130
    },
    {
      "epoch": 2.2916459719876827,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006166722956193505,
      "loss": 0.611,
      "step": 46140
    },
    {
      "epoch": 2.292142644283302,
      "grad_norm": 0.08349609375,
      "learning_rate": 0.0006166325618357008,
      "loss": 0.5577,
      "step": 46150
    },
    {
      "epoch": 2.292639316578921,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006165928280520513,
      "loss": 0.5759,
      "step": 46160
    },
    {
      "epoch": 2.2931359888745404,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006165530942684017,
      "loss": 0.5706,
      "step": 46170
    },
    {
      "epoch": 2.29363266117016,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006165133604847521,
      "loss": 0.5883,
      "step": 46180
    },
    {
      "epoch": 2.2941293334657793,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0006164736267011027,
      "loss": 0.5422,
      "step": 46190
    },
    {
      "epoch": 2.2946260057613985,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0006164338929174531,
      "loss": 0.5701,
      "step": 46200
    },
    {
      "epoch": 2.2951226780570178,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0006163941591338035,
      "loss": 0.5675,
      "step": 46210
    },
    {
      "epoch": 2.2956193503526374,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.000616354425350154,
      "loss": 0.5479,
      "step": 46220
    },
    {
      "epoch": 2.2961160226482566,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006163146915665044,
      "loss": 0.607,
      "step": 46230
    },
    {
      "epoch": 2.296612694943876,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0006162749577828549,
      "loss": 0.5768,
      "step": 46240
    },
    {
      "epoch": 2.2971093672394955,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006162352239992054,
      "loss": 0.5206,
      "step": 46250
    },
    {
      "epoch": 2.2976060395351148,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006161954902155558,
      "loss": 0.5652,
      "step": 46260
    },
    {
      "epoch": 2.298102711830734,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006161557564319062,
      "loss": 0.6084,
      "step": 46270
    },
    {
      "epoch": 2.2985993841263532,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006161160226482567,
      "loss": 0.5947,
      "step": 46280
    },
    {
      "epoch": 2.299096056421973,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006160762888646072,
      "loss": 0.5682,
      "step": 46290
    },
    {
      "epoch": 2.299592728717592,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006160365550809577,
      "loss": 0.5654,
      "step": 46300
    },
    {
      "epoch": 2.3000894010132114,
      "grad_norm": 0.1171875,
      "learning_rate": 0.000615996821297308,
      "loss": 0.6128,
      "step": 46310
    },
    {
      "epoch": 2.300586073308831,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0006159570875136585,
      "loss": 0.5572,
      "step": 46320
    },
    {
      "epoch": 2.3010827456044503,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.000615917353730009,
      "loss": 0.5714,
      "step": 46330
    },
    {
      "epoch": 2.3015794179000695,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006158776199463594,
      "loss": 0.5847,
      "step": 46340
    },
    {
      "epoch": 2.3020760901956887,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006158378861627099,
      "loss": 0.5539,
      "step": 46350
    },
    {
      "epoch": 2.3025727624913084,
      "grad_norm": 0.125,
      "learning_rate": 0.0006157981523790604,
      "loss": 0.5749,
      "step": 46360
    },
    {
      "epoch": 2.3030694347869276,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006157584185954107,
      "loss": 0.5744,
      "step": 46370
    },
    {
      "epoch": 2.303566107082547,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006157186848117612,
      "loss": 0.5616,
      "step": 46380
    },
    {
      "epoch": 2.3040627793781665,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006156789510281117,
      "loss": 0.5513,
      "step": 46390
    },
    {
      "epoch": 2.3045594516737857,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006156392172444621,
      "loss": 0.5751,
      "step": 46400
    },
    {
      "epoch": 2.305056123969405,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0006155994834608126,
      "loss": 0.5758,
      "step": 46410
    },
    {
      "epoch": 2.305552796265024,
      "grad_norm": 0.158203125,
      "learning_rate": 0.000615559749677163,
      "loss": 0.5471,
      "step": 46420
    },
    {
      "epoch": 2.306049468560644,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006155200158935134,
      "loss": 0.5547,
      "step": 46430
    },
    {
      "epoch": 2.306546140856263,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.000615480282109864,
      "loss": 0.5718,
      "step": 46440
    },
    {
      "epoch": 2.3070428131518823,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006154405483262144,
      "loss": 0.578,
      "step": 46450
    },
    {
      "epoch": 2.307539485447502,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006154008145425649,
      "loss": 0.5647,
      "step": 46460
    },
    {
      "epoch": 2.308036157743121,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006153610807589153,
      "loss": 0.5614,
      "step": 46470
    },
    {
      "epoch": 2.3085328300387404,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0006153213469752657,
      "loss": 0.542,
      "step": 46480
    },
    {
      "epoch": 2.3090295023343597,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0006152816131916163,
      "loss": 0.5636,
      "step": 46490
    },
    {
      "epoch": 2.3095261746299793,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0006152418794079666,
      "loss": 0.5703,
      "step": 46500
    },
    {
      "epoch": 2.3100228469255986,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006152021456243171,
      "loss": 0.5895,
      "step": 46510
    },
    {
      "epoch": 2.310519519221218,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006151624118406676,
      "loss": 0.5679,
      "step": 46520
    },
    {
      "epoch": 2.311016191516837,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006151226780570179,
      "loss": 0.5894,
      "step": 46530
    },
    {
      "epoch": 2.3115128638124567,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006150829442733685,
      "loss": 0.5703,
      "step": 46540
    },
    {
      "epoch": 2.312009536108076,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000615043210489719,
      "loss": 0.563,
      "step": 46550
    },
    {
      "epoch": 2.312506208403695,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0006150034767060693,
      "loss": 0.5498,
      "step": 46560
    },
    {
      "epoch": 2.3130028806993144,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0006149637429224198,
      "loss": 0.5776,
      "step": 46570
    },
    {
      "epoch": 2.313499552994934,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0006149240091387702,
      "loss": 0.5543,
      "step": 46580
    },
    {
      "epoch": 2.3139962252905533,
      "grad_norm": 0.08154296875,
      "learning_rate": 0.0006148842753551208,
      "loss": 0.5573,
      "step": 46590
    },
    {
      "epoch": 2.3144928975861725,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.0006148445415714712,
      "loss": 0.5547,
      "step": 46600
    },
    {
      "epoch": 2.314989569881792,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006148048077878216,
      "loss": 0.5712,
      "step": 46610
    },
    {
      "epoch": 2.3154862421774114,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006147650740041721,
      "loss": 0.5789,
      "step": 46620
    },
    {
      "epoch": 2.3159829144730306,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006147253402205225,
      "loss": 0.5589,
      "step": 46630
    },
    {
      "epoch": 2.31647958676865,
      "grad_norm": 0.146484375,
      "learning_rate": 0.000614685606436873,
      "loss": 0.5565,
      "step": 46640
    },
    {
      "epoch": 2.3169762590642695,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006146458726532235,
      "loss": 0.5665,
      "step": 46650
    },
    {
      "epoch": 2.3174729313598887,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006146061388695739,
      "loss": 0.5588,
      "step": 46660
    },
    {
      "epoch": 2.317969603655508,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0006145664050859243,
      "loss": 0.556,
      "step": 46670
    },
    {
      "epoch": 2.3184662759511276,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0006145266713022748,
      "loss": 0.5475,
      "step": 46680
    },
    {
      "epoch": 2.318962948246747,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006144869375186253,
      "loss": 0.5643,
      "step": 46690
    },
    {
      "epoch": 2.319459620542366,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006144472037349757,
      "loss": 0.5823,
      "step": 46700
    },
    {
      "epoch": 2.3199562928379853,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006144074699513262,
      "loss": 0.5479,
      "step": 46710
    },
    {
      "epoch": 2.320452965133605,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006143677361676765,
      "loss": 0.5915,
      "step": 46720
    },
    {
      "epoch": 2.320949637429224,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.000614328002384027,
      "loss": 0.5537,
      "step": 46730
    },
    {
      "epoch": 2.3214463097248434,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006142882686003776,
      "loss": 0.5458,
      "step": 46740
    },
    {
      "epoch": 2.321942982020463,
      "grad_norm": 0.095703125,
      "learning_rate": 0.000614248534816728,
      "loss": 0.5543,
      "step": 46750
    },
    {
      "epoch": 2.3224396543160823,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006142088010330784,
      "loss": 0.5659,
      "step": 46760
    },
    {
      "epoch": 2.3229363266117016,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006141690672494288,
      "loss": 0.5702,
      "step": 46770
    },
    {
      "epoch": 2.323432998907321,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006141293334657793,
      "loss": 0.554,
      "step": 46780
    },
    {
      "epoch": 2.3239296712029405,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006140895996821298,
      "loss": 0.5765,
      "step": 46790
    },
    {
      "epoch": 2.3244263434985597,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0006140498658984802,
      "loss": 0.5599,
      "step": 46800
    },
    {
      "epoch": 2.324923015794179,
      "grad_norm": 0.083984375,
      "learning_rate": 0.0006140101321148307,
      "loss": 0.5532,
      "step": 46810
    },
    {
      "epoch": 2.3254196880897986,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0006139703983311811,
      "loss": 0.5837,
      "step": 46820
    },
    {
      "epoch": 2.325916360385418,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006139306645475315,
      "loss": 0.5828,
      "step": 46830
    },
    {
      "epoch": 2.326413032681037,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0006138909307638821,
      "loss": 0.5436,
      "step": 46840
    },
    {
      "epoch": 2.3269097049766563,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006138511969802325,
      "loss": 0.5453,
      "step": 46850
    },
    {
      "epoch": 2.3274063772722755,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0006138114631965829,
      "loss": 0.5653,
      "step": 46860
    },
    {
      "epoch": 2.327903049567895,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006137717294129334,
      "loss": 0.5757,
      "step": 46870
    },
    {
      "epoch": 2.3283997218635144,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0006137319956292838,
      "loss": 0.5588,
      "step": 46880
    },
    {
      "epoch": 2.3288963941591336,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006136922618456343,
      "loss": 0.569,
      "step": 46890
    },
    {
      "epoch": 2.3293930664547533,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006136525280619848,
      "loss": 0.5593,
      "step": 46900
    },
    {
      "epoch": 2.3298897387503725,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006136127942783352,
      "loss": 0.5966,
      "step": 46910
    },
    {
      "epoch": 2.3303864110459918,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006135730604946856,
      "loss": 0.5688,
      "step": 46920
    },
    {
      "epoch": 2.330883083341611,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006135333267110361,
      "loss": 0.5858,
      "step": 46930
    },
    {
      "epoch": 2.3313797556372307,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006134935929273866,
      "loss": 0.5659,
      "step": 46940
    },
    {
      "epoch": 2.33187642793285,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.000613453859143737,
      "loss": 0.5702,
      "step": 46950
    },
    {
      "epoch": 2.332373100228469,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0006134141253600875,
      "loss": 0.548,
      "step": 46960
    },
    {
      "epoch": 2.332869772524089,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006133743915764379,
      "loss": 0.5671,
      "step": 46970
    },
    {
      "epoch": 2.333366444819708,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006133346577927883,
      "loss": 0.5613,
      "step": 46980
    },
    {
      "epoch": 2.3338631171153272,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006132949240091387,
      "loss": 0.6136,
      "step": 46990
    },
    {
      "epoch": 2.3343597894109465,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006132551902254893,
      "loss": 0.5489,
      "step": 47000
    },
    {
      "epoch": 2.334856461706566,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006132154564418397,
      "loss": 0.5452,
      "step": 47010
    },
    {
      "epoch": 2.3353531340021854,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0006131757226581901,
      "loss": 0.5752,
      "step": 47020
    },
    {
      "epoch": 2.3358498062978046,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006131359888745406,
      "loss": 0.5623,
      "step": 47030
    },
    {
      "epoch": 2.3363464785934243,
      "grad_norm": 0.107421875,
      "learning_rate": 0.000613096255090891,
      "loss": 0.5492,
      "step": 47040
    },
    {
      "epoch": 2.3368431508890435,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006130565213072415,
      "loss": 0.5686,
      "step": 47050
    },
    {
      "epoch": 2.3373398231846627,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.000613016787523592,
      "loss": 0.5749,
      "step": 47060
    },
    {
      "epoch": 2.337836495480282,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0006129770537399424,
      "loss": 0.6005,
      "step": 47070
    },
    {
      "epoch": 2.3383331677759016,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006129373199562928,
      "loss": 0.581,
      "step": 47080
    },
    {
      "epoch": 2.338829840071521,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006128975861726434,
      "loss": 0.5312,
      "step": 47090
    },
    {
      "epoch": 2.33932651236714,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006128578523889938,
      "loss": 0.5676,
      "step": 47100
    },
    {
      "epoch": 2.3398231846627597,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0006128181186053442,
      "loss": 0.5615,
      "step": 47110
    },
    {
      "epoch": 2.340319856958379,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006127783848216947,
      "loss": 0.5737,
      "step": 47120
    },
    {
      "epoch": 2.340816529253998,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006127386510380451,
      "loss": 0.5802,
      "step": 47130
    },
    {
      "epoch": 2.3413132015496174,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006126989172543955,
      "loss": 0.5564,
      "step": 47140
    },
    {
      "epoch": 2.341809873845237,
      "grad_norm": 0.125,
      "learning_rate": 0.0006126591834707461,
      "loss": 0.563,
      "step": 47150
    },
    {
      "epoch": 2.3423065461408563,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006126194496870965,
      "loss": 0.5529,
      "step": 47160
    },
    {
      "epoch": 2.3428032184364755,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0006125797159034469,
      "loss": 0.5879,
      "step": 47170
    },
    {
      "epoch": 2.3432998907320948,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006125399821197973,
      "loss": 0.5619,
      "step": 47180
    },
    {
      "epoch": 2.3437965630277144,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0006125002483361478,
      "loss": 0.5826,
      "step": 47190
    },
    {
      "epoch": 2.3442932353233337,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0006124605145524984,
      "loss": 0.5169,
      "step": 47200
    },
    {
      "epoch": 2.344789907618953,
      "grad_norm": 0.083984375,
      "learning_rate": 0.0006124207807688487,
      "loss": 0.5398,
      "step": 47210
    },
    {
      "epoch": 2.345286579914572,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006123810469851992,
      "loss": 0.5669,
      "step": 47220
    },
    {
      "epoch": 2.345783252210192,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0006123413132015497,
      "loss": 0.5466,
      "step": 47230
    },
    {
      "epoch": 2.346279924505811,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006123015794179,
      "loss": 0.5729,
      "step": 47240
    },
    {
      "epoch": 2.3467765968014302,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006122618456342506,
      "loss": 0.5874,
      "step": 47250
    },
    {
      "epoch": 2.34727326909705,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.000612222111850601,
      "loss": 0.5505,
      "step": 47260
    },
    {
      "epoch": 2.347769941392669,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006121823780669514,
      "loss": 0.5806,
      "step": 47270
    },
    {
      "epoch": 2.3482666136882884,
      "grad_norm": 0.21875,
      "learning_rate": 0.0006121426442833019,
      "loss": 0.558,
      "step": 47280
    },
    {
      "epoch": 2.3487632859839076,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006121029104996523,
      "loss": 0.5507,
      "step": 47290
    },
    {
      "epoch": 2.3492599582795273,
      "grad_norm": 0.1875,
      "learning_rate": 0.0006120631767160028,
      "loss": 0.5562,
      "step": 47300
    },
    {
      "epoch": 2.3497566305751465,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006120234429323533,
      "loss": 0.5989,
      "step": 47310
    },
    {
      "epoch": 2.3502533028707657,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0006119837091487037,
      "loss": 0.577,
      "step": 47320
    },
    {
      "epoch": 2.3507499751663854,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006119439753650541,
      "loss": 0.5982,
      "step": 47330
    },
    {
      "epoch": 2.3512466474620046,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0006119042415814046,
      "loss": 0.5664,
      "step": 47340
    },
    {
      "epoch": 2.351743319757624,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0006118645077977551,
      "loss": 0.557,
      "step": 47350
    },
    {
      "epoch": 2.352239992053243,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006118247740141056,
      "loss": 0.5568,
      "step": 47360
    },
    {
      "epoch": 2.3527366643488627,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0006117850402304559,
      "loss": 0.5472,
      "step": 47370
    },
    {
      "epoch": 2.353233336644482,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006117453064468064,
      "loss": 0.5609,
      "step": 47380
    },
    {
      "epoch": 2.353730008940101,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.000611705572663157,
      "loss": 0.5356,
      "step": 47390
    },
    {
      "epoch": 2.354226681235721,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006116658388795073,
      "loss": 0.5859,
      "step": 47400
    },
    {
      "epoch": 2.35472335353134,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006116261050958578,
      "loss": 0.5539,
      "step": 47410
    },
    {
      "epoch": 2.3552200258269593,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0006115863713122083,
      "loss": 0.5498,
      "step": 47420
    },
    {
      "epoch": 2.3557166981225786,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006115466375285586,
      "loss": 0.5688,
      "step": 47430
    },
    {
      "epoch": 2.3562133704181982,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0006115069037449091,
      "loss": 0.543,
      "step": 47440
    },
    {
      "epoch": 2.3567100427138175,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0006114671699612596,
      "loss": 0.5701,
      "step": 47450
    },
    {
      "epoch": 2.3572067150094367,
      "grad_norm": 0.09375,
      "learning_rate": 0.00061142743617761,
      "loss": 0.5587,
      "step": 47460
    },
    {
      "epoch": 2.3577033873050564,
      "grad_norm": 0.125,
      "learning_rate": 0.0006113877023939605,
      "loss": 0.6082,
      "step": 47470
    },
    {
      "epoch": 2.3582000596006756,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006113479686103109,
      "loss": 0.5627,
      "step": 47480
    },
    {
      "epoch": 2.358696731896295,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0006113082348266614,
      "loss": 0.5644,
      "step": 47490
    },
    {
      "epoch": 2.359193404191914,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0006112685010430119,
      "loss": 0.5654,
      "step": 47500
    },
    {
      "epoch": 2.3596900764875337,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006112287672593623,
      "loss": 0.5713,
      "step": 47510
    },
    {
      "epoch": 2.360186748783153,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0006111890334757128,
      "loss": 0.5781,
      "step": 47520
    },
    {
      "epoch": 2.360683421078772,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0006111492996920632,
      "loss": 0.5249,
      "step": 47530
    },
    {
      "epoch": 2.3611800933743914,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0006111095659084136,
      "loss": 0.5465,
      "step": 47540
    },
    {
      "epoch": 2.361676765670011,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006110698321247642,
      "loss": 0.5634,
      "step": 47550
    },
    {
      "epoch": 2.3621734379656303,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006110300983411146,
      "loss": 0.5259,
      "step": 47560
    },
    {
      "epoch": 2.3626701102612495,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.000610990364557465,
      "loss": 0.5567,
      "step": 47570
    },
    {
      "epoch": 2.3631667825568687,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006109506307738155,
      "loss": 0.5519,
      "step": 47580
    },
    {
      "epoch": 2.3636634548524884,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006109108969901658,
      "loss": 0.5779,
      "step": 47590
    },
    {
      "epoch": 2.3641601271481076,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006108711632065164,
      "loss": 0.5892,
      "step": 47600
    },
    {
      "epoch": 2.364656799443727,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006108314294228669,
      "loss": 0.5698,
      "step": 47610
    },
    {
      "epoch": 2.3651534717393465,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006107916956392172,
      "loss": 0.5859,
      "step": 47620
    },
    {
      "epoch": 2.3656501440349658,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006107519618555677,
      "loss": 0.5683,
      "step": 47630
    },
    {
      "epoch": 2.366146816330585,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006107122280719181,
      "loss": 0.5654,
      "step": 47640
    },
    {
      "epoch": 2.366643488626204,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006106724942882687,
      "loss": 0.5919,
      "step": 47650
    },
    {
      "epoch": 2.367140160921824,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006106327605046191,
      "loss": 0.5796,
      "step": 47660
    },
    {
      "epoch": 2.367636833217443,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0006105930267209695,
      "loss": 0.5524,
      "step": 47670
    },
    {
      "epoch": 2.3681335055130623,
      "grad_norm": 0.181640625,
      "learning_rate": 0.00061055329293732,
      "loss": 0.5327,
      "step": 47680
    },
    {
      "epoch": 2.368630177808682,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0006105135591536704,
      "loss": 0.5474,
      "step": 47690
    },
    {
      "epoch": 2.3691268501043012,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006104738253700209,
      "loss": 0.5729,
      "step": 47700
    },
    {
      "epoch": 2.3696235223999205,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006104340915863714,
      "loss": 0.5572,
      "step": 47710
    },
    {
      "epoch": 2.3701201946955397,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006103943578027218,
      "loss": 0.5617,
      "step": 47720
    },
    {
      "epoch": 2.3706168669911594,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006103546240190722,
      "loss": 0.5546,
      "step": 47730
    },
    {
      "epoch": 2.3711135392867786,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006103148902354227,
      "loss": 0.5584,
      "step": 47740
    },
    {
      "epoch": 2.371610211582398,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0006102751564517732,
      "loss": 0.5744,
      "step": 47750
    },
    {
      "epoch": 2.3721068838780175,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006102354226681236,
      "loss": 0.5729,
      "step": 47760
    },
    {
      "epoch": 2.3726035561736367,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006101956888844741,
      "loss": 0.5538,
      "step": 47770
    },
    {
      "epoch": 2.373100228469256,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006101559551008244,
      "loss": 0.5581,
      "step": 47780
    },
    {
      "epoch": 2.373596900764875,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006101162213171749,
      "loss": 0.5644,
      "step": 47790
    },
    {
      "epoch": 2.374093573060495,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006100764875335255,
      "loss": 0.5738,
      "step": 47800
    },
    {
      "epoch": 2.374590245356114,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006100367537498759,
      "loss": 0.5686,
      "step": 47810
    },
    {
      "epoch": 2.3750869176517333,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006099970199662263,
      "loss": 0.5489,
      "step": 47820
    },
    {
      "epoch": 2.375583589947353,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006099572861825768,
      "loss": 0.5604,
      "step": 47830
    },
    {
      "epoch": 2.376080262242972,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006099175523989272,
      "loss": 0.5671,
      "step": 47840
    },
    {
      "epoch": 2.3765769345385914,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006098778186152777,
      "loss": 0.5772,
      "step": 47850
    },
    {
      "epoch": 2.3770736068342107,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006098380848316281,
      "loss": 0.592,
      "step": 47860
    },
    {
      "epoch": 2.3775702791298303,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006097983510479786,
      "loss": 0.555,
      "step": 47870
    },
    {
      "epoch": 2.3780669514254495,
      "grad_norm": 0.12890625,
      "learning_rate": 0.000609758617264329,
      "loss": 0.5402,
      "step": 47880
    },
    {
      "epoch": 2.3785636237210688,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006097188834806794,
      "loss": 0.5615,
      "step": 47890
    },
    {
      "epoch": 2.379060296016688,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.00060967914969703,
      "loss": 0.5759,
      "step": 47900
    },
    {
      "epoch": 2.3795569683123077,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0006096394159133804,
      "loss": 0.5377,
      "step": 47910
    },
    {
      "epoch": 2.380053640607927,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0006095996821297308,
      "loss": 0.5576,
      "step": 47920
    },
    {
      "epoch": 2.380550312903546,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006095599483460813,
      "loss": 0.5403,
      "step": 47930
    },
    {
      "epoch": 2.3810469851991654,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0006095202145624317,
      "loss": 0.5741,
      "step": 47940
    },
    {
      "epoch": 2.381543657494785,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006094804807787822,
      "loss": 0.5711,
      "step": 47950
    },
    {
      "epoch": 2.3820403297904043,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0006094407469951327,
      "loss": 0.5971,
      "step": 47960
    },
    {
      "epoch": 2.3825370020860235,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006094010132114831,
      "loss": 0.5602,
      "step": 47970
    },
    {
      "epoch": 2.383033674381643,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006093612794278335,
      "loss": 0.5781,
      "step": 47980
    },
    {
      "epoch": 2.3835303466772624,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.000609321545644184,
      "loss": 0.5557,
      "step": 47990
    },
    {
      "epoch": 2.3840270189728816,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006092818118605345,
      "loss": 0.5475,
      "step": 48000
    },
    {
      "epoch": 2.384523691268501,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006092420780768849,
      "loss": 0.5776,
      "step": 48010
    },
    {
      "epoch": 2.3850203635641205,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0006092023442932354,
      "loss": 0.5688,
      "step": 48020
    },
    {
      "epoch": 2.3855170358597397,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0006091626105095858,
      "loss": 0.5748,
      "step": 48030
    },
    {
      "epoch": 2.386013708155359,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0006091228767259362,
      "loss": 0.5595,
      "step": 48040
    },
    {
      "epoch": 2.3865103804509786,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006090831429422867,
      "loss": 0.55,
      "step": 48050
    },
    {
      "epoch": 2.387007052746598,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006090434091586372,
      "loss": 0.5507,
      "step": 48060
    },
    {
      "epoch": 2.387503725042217,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0006090036753749876,
      "loss": 0.5414,
      "step": 48070
    },
    {
      "epoch": 2.3880003973378363,
      "grad_norm": 0.099609375,
      "learning_rate": 0.000608963941591338,
      "loss": 0.5573,
      "step": 48080
    },
    {
      "epoch": 2.388497069633456,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0006089242078076885,
      "loss": 0.5717,
      "step": 48090
    },
    {
      "epoch": 2.388993741929075,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006088844740240391,
      "loss": 0.5798,
      "step": 48100
    },
    {
      "epoch": 2.3894904142246944,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006088447402403894,
      "loss": 0.5437,
      "step": 48110
    },
    {
      "epoch": 2.389987086520314,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006088050064567399,
      "loss": 0.5658,
      "step": 48120
    },
    {
      "epoch": 2.3904837588159333,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0006087652726730903,
      "loss": 0.5929,
      "step": 48130
    },
    {
      "epoch": 2.3909804311115526,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006087255388894407,
      "loss": 0.5686,
      "step": 48140
    },
    {
      "epoch": 2.391477103407172,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0006086858051057913,
      "loss": 0.5695,
      "step": 48150
    },
    {
      "epoch": 2.3919737757027915,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0006086460713221417,
      "loss": 0.5974,
      "step": 48160
    },
    {
      "epoch": 2.3924704479984107,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0006086063375384921,
      "loss": 0.5581,
      "step": 48170
    },
    {
      "epoch": 2.39296712029403,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006085666037548426,
      "loss": 0.5586,
      "step": 48180
    },
    {
      "epoch": 2.3934637925896496,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.000608526869971193,
      "loss": 0.5454,
      "step": 48190
    },
    {
      "epoch": 2.393960464885269,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006084871361875435,
      "loss": 0.5464,
      "step": 48200
    },
    {
      "epoch": 2.394457137180888,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.000608447402403894,
      "loss": 0.5685,
      "step": 48210
    },
    {
      "epoch": 2.3949538094765073,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0006084076686202444,
      "loss": 0.545,
      "step": 48220
    },
    {
      "epoch": 2.395450481772127,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0006083679348365949,
      "loss": 0.5746,
      "step": 48230
    },
    {
      "epoch": 2.395947154067746,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006083282010529452,
      "loss": 0.5444,
      "step": 48240
    },
    {
      "epoch": 2.3964438263633654,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006082884672692958,
      "loss": 0.5705,
      "step": 48250
    },
    {
      "epoch": 2.3969404986589846,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0006082487334856463,
      "loss": 0.5899,
      "step": 48260
    },
    {
      "epoch": 2.3974371709546043,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006082089997019966,
      "loss": 0.546,
      "step": 48270
    },
    {
      "epoch": 2.3979338432502235,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0006081692659183471,
      "loss": 0.5731,
      "step": 48280
    },
    {
      "epoch": 2.3984305155458427,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006081295321346976,
      "loss": 0.5569,
      "step": 48290
    },
    {
      "epoch": 2.398927187841462,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.000608089798351048,
      "loss": 0.5787,
      "step": 48300
    },
    {
      "epoch": 2.3994238601370816,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.0006080500645673985,
      "loss": 0.565,
      "step": 48310
    },
    {
      "epoch": 2.399920532432701,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006080103307837489,
      "loss": 0.5364,
      "step": 48320
    },
    {
      "epoch": 2.40041720472832,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0006079705970000993,
      "loss": 0.5913,
      "step": 48330
    },
    {
      "epoch": 2.4009138770239398,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0006079308632164498,
      "loss": 0.5611,
      "step": 48340
    },
    {
      "epoch": 2.401410549319559,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006078911294328003,
      "loss": 0.5501,
      "step": 48350
    },
    {
      "epoch": 2.4019072216151782,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006078513956491507,
      "loss": 0.5486,
      "step": 48360
    },
    {
      "epoch": 2.4024038939107974,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006078116618655012,
      "loss": 0.5591,
      "step": 48370
    },
    {
      "epoch": 2.402900566206417,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006077719280818516,
      "loss": 0.5502,
      "step": 48380
    },
    {
      "epoch": 2.4033972385020363,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006077321942982021,
      "loss": 0.554,
      "step": 48390
    },
    {
      "epoch": 2.4038939107976556,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0006076924605145526,
      "loss": 0.608,
      "step": 48400
    },
    {
      "epoch": 2.4043905830932752,
      "grad_norm": 0.19140625,
      "learning_rate": 0.000607652726730903,
      "loss": 0.5643,
      "step": 48410
    },
    {
      "epoch": 2.4048872553888945,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006076129929472535,
      "loss": 0.5602,
      "step": 48420
    },
    {
      "epoch": 2.4053839276845137,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006075732591636039,
      "loss": 0.5781,
      "step": 48430
    },
    {
      "epoch": 2.405880599980133,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006075335253799543,
      "loss": 0.5666,
      "step": 48440
    },
    {
      "epoch": 2.4063772722757526,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006074937915963049,
      "loss": 0.5493,
      "step": 48450
    },
    {
      "epoch": 2.406873944571372,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0006074540578126552,
      "loss": 0.5756,
      "step": 48460
    },
    {
      "epoch": 2.407370616866991,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0006074143240290057,
      "loss": 0.548,
      "step": 48470
    },
    {
      "epoch": 2.4078672891626107,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0006073745902453562,
      "loss": 0.5627,
      "step": 48480
    },
    {
      "epoch": 2.40836396145823,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006073348564617065,
      "loss": 0.5822,
      "step": 48490
    },
    {
      "epoch": 2.408860633753849,
      "grad_norm": 0.109375,
      "learning_rate": 0.000607295122678057,
      "loss": 0.5511,
      "step": 48500
    },
    {
      "epoch": 2.4093573060494684,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006072553888944075,
      "loss": 0.5496,
      "step": 48510
    },
    {
      "epoch": 2.409853978345088,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0006072156551107579,
      "loss": 0.5663,
      "step": 48520
    },
    {
      "epoch": 2.4103506506407073,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006071759213271084,
      "loss": 0.5617,
      "step": 48530
    },
    {
      "epoch": 2.4108473229363265,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0006071361875434588,
      "loss": 0.5533,
      "step": 48540
    },
    {
      "epoch": 2.411343995231946,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0006070964537598094,
      "loss": 0.5751,
      "step": 48550
    },
    {
      "epoch": 2.4118406675275654,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0006070567199761598,
      "loss": 0.5347,
      "step": 48560
    },
    {
      "epoch": 2.4123373398231847,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006070169861925102,
      "loss": 0.5762,
      "step": 48570
    },
    {
      "epoch": 2.412834012118804,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006069772524088607,
      "loss": 0.5724,
      "step": 48580
    },
    {
      "epoch": 2.4133306844144236,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0006069375186252111,
      "loss": 0.5843,
      "step": 48590
    },
    {
      "epoch": 2.413827356710043,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006068977848415615,
      "loss": 0.5724,
      "step": 48600
    },
    {
      "epoch": 2.414324029005662,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0006068580510579121,
      "loss": 0.5487,
      "step": 48610
    },
    {
      "epoch": 2.4148207013012812,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0006068183172742625,
      "loss": 0.547,
      "step": 48620
    },
    {
      "epoch": 2.415317373596901,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006067785834906129,
      "loss": 0.5484,
      "step": 48630
    },
    {
      "epoch": 2.41581404589252,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006067388497069634,
      "loss": 0.565,
      "step": 48640
    },
    {
      "epoch": 2.4163107181881394,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006066991159233137,
      "loss": 0.5757,
      "step": 48650
    },
    {
      "epoch": 2.4168073904837586,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006066593821396643,
      "loss": 0.5451,
      "step": 48660
    },
    {
      "epoch": 2.4173040627793783,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006066196483560148,
      "loss": 0.5837,
      "step": 48670
    },
    {
      "epoch": 2.4178007350749975,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006065799145723652,
      "loss": 0.5708,
      "step": 48680
    },
    {
      "epoch": 2.4182974073706167,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006065401807887156,
      "loss": 0.565,
      "step": 48690
    },
    {
      "epoch": 2.4187940796662364,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.000606500447005066,
      "loss": 0.5489,
      "step": 48700
    },
    {
      "epoch": 2.4192907519618556,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006064607132214166,
      "loss": 0.5792,
      "step": 48710
    },
    {
      "epoch": 2.419787424257475,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.000606420979437767,
      "loss": 0.5766,
      "step": 48720
    },
    {
      "epoch": 2.420284096553094,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0006063812456541174,
      "loss": 0.5633,
      "step": 48730
    },
    {
      "epoch": 2.4207807688487137,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0006063415118704679,
      "loss": 0.5718,
      "step": 48740
    },
    {
      "epoch": 2.421277441144333,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006063017780868183,
      "loss": 0.573,
      "step": 48750
    },
    {
      "epoch": 2.421774113439952,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006062620443031688,
      "loss": 0.5696,
      "step": 48760
    },
    {
      "epoch": 2.422270785735572,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0006062223105195193,
      "loss": 0.5642,
      "step": 48770
    },
    {
      "epoch": 2.422767458031191,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006061825767358697,
      "loss": 0.5697,
      "step": 48780
    },
    {
      "epoch": 2.4232641303268103,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006061428429522201,
      "loss": 0.5572,
      "step": 48790
    },
    {
      "epoch": 2.4237608026224295,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006061031091685706,
      "loss": 0.5505,
      "step": 48800
    },
    {
      "epoch": 2.424257474918049,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0006060633753849211,
      "loss": 0.5675,
      "step": 48810
    },
    {
      "epoch": 2.4247541472136684,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006060236416012715,
      "loss": 0.5403,
      "step": 48820
    },
    {
      "epoch": 2.4252508195092877,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.000605983907817622,
      "loss": 0.5562,
      "step": 48830
    },
    {
      "epoch": 2.4257474918049073,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006059441740339724,
      "loss": 0.5669,
      "step": 48840
    },
    {
      "epoch": 2.4262441641005266,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006059044402503228,
      "loss": 0.5864,
      "step": 48850
    },
    {
      "epoch": 2.426740836396146,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0006058647064666734,
      "loss": 0.553,
      "step": 48860
    },
    {
      "epoch": 2.427237508691765,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006058249726830238,
      "loss": 0.5676,
      "step": 48870
    },
    {
      "epoch": 2.4277341809873847,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006057852388993742,
      "loss": 0.543,
      "step": 48880
    },
    {
      "epoch": 2.428230853283004,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006057455051157247,
      "loss": 0.5484,
      "step": 48890
    },
    {
      "epoch": 2.428727525578623,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006057057713320751,
      "loss": 0.5772,
      "step": 48900
    },
    {
      "epoch": 2.429224197874243,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006056660375484256,
      "loss": 0.5984,
      "step": 48910
    },
    {
      "epoch": 2.429720870169862,
      "grad_norm": 0.103515625,
      "learning_rate": 0.000605626303764776,
      "loss": 0.574,
      "step": 48920
    },
    {
      "epoch": 2.4302175424654813,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006055865699811265,
      "loss": 0.5479,
      "step": 48930
    },
    {
      "epoch": 2.4307142147611005,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006055468361974769,
      "loss": 0.5385,
      "step": 48940
    },
    {
      "epoch": 2.4312108870567197,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006055071024138273,
      "loss": 0.5857,
      "step": 48950
    },
    {
      "epoch": 2.4317075593523394,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006054673686301779,
      "loss": 0.5407,
      "step": 48960
    },
    {
      "epoch": 2.4322042316479586,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0006054276348465283,
      "loss": 0.577,
      "step": 48970
    },
    {
      "epoch": 2.432700903943578,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006053879010628787,
      "loss": 0.5924,
      "step": 48980
    },
    {
      "epoch": 2.4331975762391975,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006053481672792292,
      "loss": 0.5802,
      "step": 48990
    },
    {
      "epoch": 2.4336942485348168,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0006053084334955796,
      "loss": 0.5521,
      "step": 49000
    },
    {
      "epoch": 2.434190920830436,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006052686997119301,
      "loss": 0.5648,
      "step": 49010
    },
    {
      "epoch": 2.434687593126055,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006052289659282806,
      "loss": 0.58,
      "step": 49020
    },
    {
      "epoch": 2.435184265421675,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.000605189232144631,
      "loss": 0.5418,
      "step": 49030
    },
    {
      "epoch": 2.435680937717294,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006051494983609814,
      "loss": 0.5535,
      "step": 49040
    },
    {
      "epoch": 2.4361776100129133,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006051097645773319,
      "loss": 0.5718,
      "step": 49050
    },
    {
      "epoch": 2.436674282308533,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0006050700307936824,
      "loss": 0.5783,
      "step": 49060
    },
    {
      "epoch": 2.4371709546041522,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0006050302970100328,
      "loss": 0.5711,
      "step": 49070
    },
    {
      "epoch": 2.4376676268997715,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0006049905632263833,
      "loss": 0.5727,
      "step": 49080
    },
    {
      "epoch": 2.4381642991953907,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0006049508294427337,
      "loss": 0.567,
      "step": 49090
    },
    {
      "epoch": 2.4386609714910104,
      "grad_norm": 0.140625,
      "learning_rate": 0.0006049110956590841,
      "loss": 0.573,
      "step": 49100
    },
    {
      "epoch": 2.4391576437866296,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0006048713618754346,
      "loss": 0.5678,
      "step": 49110
    },
    {
      "epoch": 2.439654316082249,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006048316280917851,
      "loss": 0.5699,
      "step": 49120
    },
    {
      "epoch": 2.4401509883778685,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0006047918943081356,
      "loss": 0.5472,
      "step": 49130
    },
    {
      "epoch": 2.4406476606734877,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0006047521605244859,
      "loss": 0.5707,
      "step": 49140
    },
    {
      "epoch": 2.441144332969107,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006047124267408364,
      "loss": 0.5915,
      "step": 49150
    },
    {
      "epoch": 2.441641005264726,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.000604672692957187,
      "loss": 0.5795,
      "step": 49160
    },
    {
      "epoch": 2.442137677560346,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0006046329591735373,
      "loss": 0.5591,
      "step": 49170
    },
    {
      "epoch": 2.442634349855965,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006045932253898878,
      "loss": 0.5705,
      "step": 49180
    },
    {
      "epoch": 2.4431310221515843,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0006045534916062382,
      "loss": 0.5731,
      "step": 49190
    },
    {
      "epoch": 2.443627694447204,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0006045137578225886,
      "loss": 0.5761,
      "step": 49200
    },
    {
      "epoch": 2.444124366742823,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006044740240389392,
      "loss": 0.5612,
      "step": 49210
    },
    {
      "epoch": 2.4446210390384424,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0006044342902552896,
      "loss": 0.5573,
      "step": 49220
    },
    {
      "epoch": 2.4451177113340616,
      "grad_norm": 0.126953125,
      "learning_rate": 0.00060439455647164,
      "loss": 0.5884,
      "step": 49230
    },
    {
      "epoch": 2.4456143836296813,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006043548226879905,
      "loss": 0.5599,
      "step": 49240
    },
    {
      "epoch": 2.4461110559253005,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006043150889043409,
      "loss": 0.5611,
      "step": 49250
    },
    {
      "epoch": 2.4466077282209198,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0006042753551206914,
      "loss": 0.5909,
      "step": 49260
    },
    {
      "epoch": 2.4471044005165394,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006042356213370419,
      "loss": 0.5518,
      "step": 49270
    },
    {
      "epoch": 2.4476010728121587,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0006041958875533923,
      "loss": 0.5707,
      "step": 49280
    },
    {
      "epoch": 2.448097745107778,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006041561537697428,
      "loss": 0.5541,
      "step": 49290
    },
    {
      "epoch": 2.448594417403397,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006041164199860931,
      "loss": 0.5475,
      "step": 49300
    },
    {
      "epoch": 2.4490910896990163,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006040766862024437,
      "loss": 0.5545,
      "step": 49310
    },
    {
      "epoch": 2.449587761994636,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0006040369524187942,
      "loss": 0.554,
      "step": 49320
    },
    {
      "epoch": 2.4500844342902552,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006039972186351445,
      "loss": 0.553,
      "step": 49330
    },
    {
      "epoch": 2.4505811065858745,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.000603957484851495,
      "loss": 0.578,
      "step": 49340
    },
    {
      "epoch": 2.451077778881494,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006039177510678455,
      "loss": 0.5772,
      "step": 49350
    },
    {
      "epoch": 2.4515744511771134,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0006038780172841959,
      "loss": 0.5496,
      "step": 49360
    },
    {
      "epoch": 2.4520711234727326,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0006038382835005464,
      "loss": 0.5625,
      "step": 49370
    },
    {
      "epoch": 2.452567795768352,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006037985497168968,
      "loss": 0.5499,
      "step": 49380
    },
    {
      "epoch": 2.4530644680639715,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006037588159332472,
      "loss": 0.589,
      "step": 49390
    },
    {
      "epoch": 2.4535611403595907,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0006037190821495977,
      "loss": 0.5583,
      "step": 49400
    },
    {
      "epoch": 2.45405781265521,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006036793483659482,
      "loss": 0.5581,
      "step": 49410
    },
    {
      "epoch": 2.4545544849508296,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0006036396145822986,
      "loss": 0.5714,
      "step": 49420
    },
    {
      "epoch": 2.455051157246449,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0006035998807986491,
      "loss": 0.5595,
      "step": 49430
    },
    {
      "epoch": 2.455547829542068,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0006035601470149995,
      "loss": 0.5451,
      "step": 49440
    },
    {
      "epoch": 2.4560445018376873,
      "grad_norm": 0.125,
      "learning_rate": 0.00060352041323135,
      "loss": 0.5666,
      "step": 49450
    },
    {
      "epoch": 2.456541174133307,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006034806794477005,
      "loss": 0.6094,
      "step": 49460
    },
    {
      "epoch": 2.457037846428926,
      "grad_norm": 0.125,
      "learning_rate": 0.0006034409456640509,
      "loss": 0.5374,
      "step": 49470
    },
    {
      "epoch": 2.4575345187245454,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0006034012118804014,
      "loss": 0.5574,
      "step": 49480
    },
    {
      "epoch": 2.458031191020165,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0006033614780967518,
      "loss": 0.5301,
      "step": 49490
    },
    {
      "epoch": 2.4585278633157843,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0006033217443131022,
      "loss": 0.5728,
      "step": 49500
    },
    {
      "epoch": 2.4590245356114036,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0006032820105294528,
      "loss": 0.5635,
      "step": 49510
    },
    {
      "epoch": 2.4595212079070228,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006032422767458031,
      "loss": 0.5471,
      "step": 49520
    },
    {
      "epoch": 2.4600178802026424,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0006032025429621536,
      "loss": 0.5895,
      "step": 49530
    },
    {
      "epoch": 2.4605145524982617,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006031628091785041,
      "loss": 0.5626,
      "step": 49540
    },
    {
      "epoch": 2.461011224793881,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0006031230753948544,
      "loss": 0.5692,
      "step": 49550
    },
    {
      "epoch": 2.4615078970895006,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.000603083341611205,
      "loss": 0.5512,
      "step": 49560
    },
    {
      "epoch": 2.46200456938512,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0006030436078275554,
      "loss": 0.5326,
      "step": 49570
    },
    {
      "epoch": 2.462501241680739,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0006030038740439059,
      "loss": 0.5489,
      "step": 49580
    },
    {
      "epoch": 2.4629979139763583,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006029641402602563,
      "loss": 0.5411,
      "step": 49590
    },
    {
      "epoch": 2.463494586271978,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006029244064766067,
      "loss": 0.571,
      "step": 49600
    },
    {
      "epoch": 2.463991258567597,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0006028846726929573,
      "loss": 0.5845,
      "step": 49610
    },
    {
      "epoch": 2.4644879308632164,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0006028449389093077,
      "loss": 0.5634,
      "step": 49620
    },
    {
      "epoch": 2.4649846031588356,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0006028052051256581,
      "loss": 0.5268,
      "step": 49630
    },
    {
      "epoch": 2.4654812754544553,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0006027654713420086,
      "loss": 0.5525,
      "step": 49640
    },
    {
      "epoch": 2.4659779477500745,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.000602725737558359,
      "loss": 0.5734,
      "step": 49650
    },
    {
      "epoch": 2.4664746200456937,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006026860037747094,
      "loss": 0.581,
      "step": 49660
    },
    {
      "epoch": 2.466971292341313,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.00060264626999106,
      "loss": 0.5424,
      "step": 49670
    },
    {
      "epoch": 2.4674679646369326,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006026065362074104,
      "loss": 0.5855,
      "step": 49680
    },
    {
      "epoch": 2.467964636932552,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006025668024237608,
      "loss": 0.5456,
      "step": 49690
    },
    {
      "epoch": 2.468461309228171,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0006025270686401113,
      "loss": 0.5672,
      "step": 49700
    },
    {
      "epoch": 2.4689579815237908,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0006024873348564616,
      "loss": 0.5702,
      "step": 49710
    },
    {
      "epoch": 2.46945465381941,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0006024476010728122,
      "loss": 0.5975,
      "step": 49720
    },
    {
      "epoch": 2.469951326115029,
      "grad_norm": 0.109375,
      "learning_rate": 0.0006024078672891627,
      "loss": 0.5456,
      "step": 49730
    },
    {
      "epoch": 2.4704479984106484,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0006023681335055131,
      "loss": 0.5342,
      "step": 49740
    },
    {
      "epoch": 2.470944670706268,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0006023283997218635,
      "loss": 0.5671,
      "step": 49750
    },
    {
      "epoch": 2.4714413430018873,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0006022886659382141,
      "loss": 0.5535,
      "step": 49760
    },
    {
      "epoch": 2.4719380152975066,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0006022489321545645,
      "loss": 0.5873,
      "step": 49770
    },
    {
      "epoch": 2.4724346875931262,
      "grad_norm": 0.09375,
      "learning_rate": 0.0006022091983709149,
      "loss": 0.5657,
      "step": 49780
    },
    {
      "epoch": 2.4729313598887455,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006021694645872653,
      "loss": 0.5449,
      "step": 49790
    },
    {
      "epoch": 2.4734280321843647,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006021297308036158,
      "loss": 0.5494,
      "step": 49800
    },
    {
      "epoch": 2.473924704479984,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006020899970199662,
      "loss": 0.5704,
      "step": 49810
    },
    {
      "epoch": 2.4744213767756036,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006020502632363167,
      "loss": 0.5526,
      "step": 49820
    },
    {
      "epoch": 2.474918049071223,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0006020105294526672,
      "loss": 0.5606,
      "step": 49830
    },
    {
      "epoch": 2.475414721366842,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0006019707956690176,
      "loss": 0.588,
      "step": 49840
    },
    {
      "epoch": 2.4759113936624617,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.000601931061885368,
      "loss": 0.5424,
      "step": 49850
    },
    {
      "epoch": 2.476408065958081,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0006018913281017186,
      "loss": 0.5562,
      "step": 49860
    },
    {
      "epoch": 2.4769047382537,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.000601851594318069,
      "loss": 0.545,
      "step": 49870
    },
    {
      "epoch": 2.4774014105493194,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0006018118605344194,
      "loss": 0.5647,
      "step": 49880
    },
    {
      "epoch": 2.477898082844939,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0006017721267507699,
      "loss": 0.5427,
      "step": 49890
    },
    {
      "epoch": 2.4783947551405583,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.0006017323929671203,
      "loss": 0.5381,
      "step": 49900
    },
    {
      "epoch": 2.4788914274361775,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0006016926591834707,
      "loss": 0.555,
      "step": 49910
    },
    {
      "epoch": 2.479388099731797,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006016529253998213,
      "loss": 0.5809,
      "step": 49920
    },
    {
      "epoch": 2.4798847720274164,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0006016131916161717,
      "loss": 0.5339,
      "step": 49930
    },
    {
      "epoch": 2.4803814443230356,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006015734578325221,
      "loss": 0.5717,
      "step": 49940
    },
    {
      "epoch": 2.480878116618655,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0006015337240488726,
      "loss": 0.5455,
      "step": 49950
    },
    {
      "epoch": 2.4813747889142745,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.000601493990265223,
      "loss": 0.5582,
      "step": 49960
    },
    {
      "epoch": 2.4818714612098938,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0006014542564815735,
      "loss": 0.588,
      "step": 49970
    },
    {
      "epoch": 2.482368133505513,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0006014145226979239,
      "loss": 0.5391,
      "step": 49980
    },
    {
      "epoch": 2.4828648058011322,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006013747889142744,
      "loss": 0.5665,
      "step": 49990
    },
    {
      "epoch": 2.483361478096752,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0006013350551306248,
      "loss": 0.5499,
      "step": 50000
    },
    {
      "epoch": 2.483858150392371,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0006012953213469752,
      "loss": 0.5816,
      "step": 50010
    },
    {
      "epoch": 2.4843548226879903,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006012555875633258,
      "loss": 0.5779,
      "step": 50020
    },
    {
      "epoch": 2.4848514949836096,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006012158537796763,
      "loss": 0.526,
      "step": 50030
    },
    {
      "epoch": 2.4853481672792292,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0006011761199960266,
      "loss": 0.5614,
      "step": 50040
    },
    {
      "epoch": 2.4858448395748485,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0006011363862123771,
      "loss": 0.5772,
      "step": 50050
    },
    {
      "epoch": 2.4863415118704677,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006010966524287275,
      "loss": 0.5888,
      "step": 50060
    },
    {
      "epoch": 2.4868381841660874,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.000601056918645078,
      "loss": 0.5385,
      "step": 50070
    },
    {
      "epoch": 2.4873348564617066,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0006010171848614285,
      "loss": 0.6059,
      "step": 50080
    },
    {
      "epoch": 2.487831528757326,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0006009774510777789,
      "loss": 0.5604,
      "step": 50090
    },
    {
      "epoch": 2.488328201052945,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0006009377172941293,
      "loss": 0.5387,
      "step": 50100
    },
    {
      "epoch": 2.4888248733485647,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0006008979835104798,
      "loss": 0.5603,
      "step": 50110
    },
    {
      "epoch": 2.489321545644184,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0006008582497268303,
      "loss": 0.5659,
      "step": 50120
    },
    {
      "epoch": 2.489818217939803,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0006008185159431807,
      "loss": 0.5607,
      "step": 50130
    },
    {
      "epoch": 2.490314890235423,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0006007787821595312,
      "loss": 0.5308,
      "step": 50140
    },
    {
      "epoch": 2.490811562531042,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0006007390483758816,
      "loss": 0.5595,
      "step": 50150
    },
    {
      "epoch": 2.4913082348266613,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.000600699314592232,
      "loss": 0.5742,
      "step": 50160
    },
    {
      "epoch": 2.4918049071222805,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006006595808085825,
      "loss": 0.5578,
      "step": 50170
    },
    {
      "epoch": 2.4923015794179,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.000600619847024933,
      "loss": 0.5511,
      "step": 50180
    },
    {
      "epoch": 2.4927982517135194,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0006005801132412835,
      "loss": 0.5548,
      "step": 50190
    },
    {
      "epoch": 2.4932949240091387,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0006005403794576338,
      "loss": 0.5776,
      "step": 50200
    },
    {
      "epoch": 2.4937915963047583,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0006005006456739843,
      "loss": 0.5829,
      "step": 50210
    },
    {
      "epoch": 2.4942882686003776,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0006004609118903349,
      "loss": 0.5768,
      "step": 50220
    },
    {
      "epoch": 2.494784940895997,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0006004211781066852,
      "loss": 0.5617,
      "step": 50230
    },
    {
      "epoch": 2.495281613191616,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0006003814443230357,
      "loss": 0.5578,
      "step": 50240
    },
    {
      "epoch": 2.4957782854872357,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0006003417105393861,
      "loss": 0.5624,
      "step": 50250
    },
    {
      "epoch": 2.496274957782855,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0006003019767557365,
      "loss": 0.5755,
      "step": 50260
    },
    {
      "epoch": 2.496771630078474,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0006002622429720871,
      "loss": 0.5617,
      "step": 50270
    },
    {
      "epoch": 2.497268302374094,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0006002225091884375,
      "loss": 0.538,
      "step": 50280
    },
    {
      "epoch": 2.497764974669713,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0006001827754047879,
      "loss": 0.5541,
      "step": 50290
    },
    {
      "epoch": 2.4982616469653323,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0006001430416211384,
      "loss": 0.5606,
      "step": 50300
    },
    {
      "epoch": 2.4987583192609515,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0006001033078374888,
      "loss": 0.5533,
      "step": 50310
    },
    {
      "epoch": 2.499254991556571,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0006000635740538393,
      "loss": 0.5404,
      "step": 50320
    },
    {
      "epoch": 2.4997516638521904,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0006000238402701898,
      "loss": 0.5438,
      "step": 50330
    },
    {
      "epoch": 2.5002483361478096,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005999841064865402,
      "loss": 0.556,
      "step": 50340
    },
    {
      "epoch": 2.5007450084434293,
      "grad_norm": 0.125,
      "learning_rate": 0.0005999443727028907,
      "loss": 0.589,
      "step": 50350
    },
    {
      "epoch": 2.5012416807390485,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005999046389192411,
      "loss": 0.5908,
      "step": 50360
    },
    {
      "epoch": 2.5017383530346677,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005998649051355916,
      "loss": 0.5258,
      "step": 50370
    },
    {
      "epoch": 2.502235025330287,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005998251713519421,
      "loss": 0.5685,
      "step": 50380
    },
    {
      "epoch": 2.502731697625906,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0005997854375682924,
      "loss": 0.5652,
      "step": 50390
    },
    {
      "epoch": 2.503228369921526,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005997457037846429,
      "loss": 0.5472,
      "step": 50400
    },
    {
      "epoch": 2.503725042217145,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0005997059700009934,
      "loss": 0.5512,
      "step": 50410
    },
    {
      "epoch": 2.5042217145127643,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005996662362173438,
      "loss": 0.5654,
      "step": 50420
    },
    {
      "epoch": 2.504718386808384,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005996265024336943,
      "loss": 0.5999,
      "step": 50430
    },
    {
      "epoch": 2.505215059104003,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005995867686500447,
      "loss": 0.555,
      "step": 50440
    },
    {
      "epoch": 2.5057117313996224,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005995470348663951,
      "loss": 0.5657,
      "step": 50450
    },
    {
      "epoch": 2.5062084036952417,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005995073010827456,
      "loss": 0.5458,
      "step": 50460
    },
    {
      "epoch": 2.5067050759908613,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005994675672990961,
      "loss": 0.565,
      "step": 50470
    },
    {
      "epoch": 2.5072017482864806,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005994278335154466,
      "loss": 0.566,
      "step": 50480
    },
    {
      "epoch": 2.5076984205821,
      "grad_norm": 0.13671875,
      "learning_rate": 0.000599388099731797,
      "loss": 0.5603,
      "step": 50490
    },
    {
      "epoch": 2.5081950928777195,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005993483659481474,
      "loss": 0.544,
      "step": 50500
    },
    {
      "epoch": 2.5086917651733387,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005993086321644979,
      "loss": 0.5736,
      "step": 50510
    },
    {
      "epoch": 2.509188437468958,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005992688983808484,
      "loss": 0.5321,
      "step": 50520
    },
    {
      "epoch": 2.509685109764577,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005992291645971988,
      "loss": 0.5619,
      "step": 50530
    },
    {
      "epoch": 2.510181782060197,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005991894308135493,
      "loss": 0.5561,
      "step": 50540
    },
    {
      "epoch": 2.510678454355816,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0005991496970298997,
      "loss": 0.5537,
      "step": 50550
    },
    {
      "epoch": 2.5111751266514353,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005991099632462501,
      "loss": 0.5722,
      "step": 50560
    },
    {
      "epoch": 2.511671798947055,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005990702294626007,
      "loss": 0.5708,
      "step": 50570
    },
    {
      "epoch": 2.512168471242674,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.000599030495678951,
      "loss": 0.5803,
      "step": 50580
    },
    {
      "epoch": 2.5126651435382934,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0005989907618953015,
      "loss": 0.5337,
      "step": 50590
    },
    {
      "epoch": 2.5131618158339126,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.000598951028111652,
      "loss": 0.5547,
      "step": 50600
    },
    {
      "epoch": 2.5136584881295323,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005989112943280023,
      "loss": 0.5613,
      "step": 50610
    },
    {
      "epoch": 2.5141551604251515,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005988715605443529,
      "loss": 0.5465,
      "step": 50620
    },
    {
      "epoch": 2.5146518327207708,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0005988318267607034,
      "loss": 0.5655,
      "step": 50630
    },
    {
      "epoch": 2.5151485050163904,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005987920929770538,
      "loss": 0.5754,
      "step": 50640
    },
    {
      "epoch": 2.5156451773120097,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005987523591934042,
      "loss": 0.5651,
      "step": 50650
    },
    {
      "epoch": 2.516141849607629,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005987126254097546,
      "loss": 0.5524,
      "step": 50660
    },
    {
      "epoch": 2.516638521903248,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005986728916261052,
      "loss": 0.5469,
      "step": 50670
    },
    {
      "epoch": 2.5171351941988673,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005986331578424556,
      "loss": 0.5544,
      "step": 50680
    },
    {
      "epoch": 2.517631866494487,
      "grad_norm": 0.09765625,
      "learning_rate": 0.000598593424058806,
      "loss": 0.5957,
      "step": 50690
    },
    {
      "epoch": 2.5181285387901062,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005985536902751565,
      "loss": 0.5565,
      "step": 50700
    },
    {
      "epoch": 2.518625211085726,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005985139564915069,
      "loss": 0.574,
      "step": 50710
    },
    {
      "epoch": 2.519121883381345,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0005984742227078574,
      "loss": 0.5723,
      "step": 50720
    },
    {
      "epoch": 2.5196185556769644,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005984344889242079,
      "loss": 0.5467,
      "step": 50730
    },
    {
      "epoch": 2.5201152279725836,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005983947551405583,
      "loss": 0.5421,
      "step": 50740
    },
    {
      "epoch": 2.520611900268203,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005983550213569087,
      "loss": 0.5228,
      "step": 50750
    },
    {
      "epoch": 2.5211085725638225,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005983152875732592,
      "loss": 0.5707,
      "step": 50760
    },
    {
      "epoch": 2.5216052448594417,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005982755537896097,
      "loss": 0.5645,
      "step": 50770
    },
    {
      "epoch": 2.522101917155061,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005982358200059601,
      "loss": 0.563,
      "step": 50780
    },
    {
      "epoch": 2.5225985894506806,
      "grad_norm": 0.140625,
      "learning_rate": 0.0005981960862223106,
      "loss": 0.5781,
      "step": 50790
    },
    {
      "epoch": 2.5230952617463,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.000598156352438661,
      "loss": 0.5269,
      "step": 50800
    },
    {
      "epoch": 2.523591934041919,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005981166186550114,
      "loss": 0.55,
      "step": 50810
    },
    {
      "epoch": 2.5240886063375383,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.000598076884871362,
      "loss": 0.5676,
      "step": 50820
    },
    {
      "epoch": 2.524585278633158,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005980371510877124,
      "loss": 0.5254,
      "step": 50830
    },
    {
      "epoch": 2.525081950928777,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005979974173040628,
      "loss": 0.5673,
      "step": 50840
    },
    {
      "epoch": 2.5255786232243964,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005979576835204132,
      "loss": 0.5848,
      "step": 50850
    },
    {
      "epoch": 2.526075295520016,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0005979179497367637,
      "loss": 0.5343,
      "step": 50860
    },
    {
      "epoch": 2.5265719678156353,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005978782159531142,
      "loss": 0.5898,
      "step": 50870
    },
    {
      "epoch": 2.5270686401112545,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005978384821694646,
      "loss": 0.5488,
      "step": 50880
    },
    {
      "epoch": 2.5275653124068738,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005977987483858151,
      "loss": 0.5552,
      "step": 50890
    },
    {
      "epoch": 2.5280619847024934,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005977590146021655,
      "loss": 0.5616,
      "step": 50900
    },
    {
      "epoch": 2.5285586569981127,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005977192808185159,
      "loss": 0.5752,
      "step": 50910
    },
    {
      "epoch": 2.529055329293732,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005976795470348665,
      "loss": 0.5545,
      "step": 50920
    },
    {
      "epoch": 2.5295520015893516,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005976398132512169,
      "loss": 0.5562,
      "step": 50930
    },
    {
      "epoch": 2.530048673884971,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005976000794675673,
      "loss": 0.56,
      "step": 50940
    },
    {
      "epoch": 2.53054534618059,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005975603456839178,
      "loss": 0.5614,
      "step": 50950
    },
    {
      "epoch": 2.5310420184762092,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005975206119002682,
      "loss": 0.5647,
      "step": 50960
    },
    {
      "epoch": 2.5315386907718285,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005974808781166186,
      "loss": 0.5495,
      "step": 50970
    },
    {
      "epoch": 2.532035363067448,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005974411443329692,
      "loss": 0.5878,
      "step": 50980
    },
    {
      "epoch": 2.5325320353630674,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005974014105493196,
      "loss": 0.5465,
      "step": 50990
    },
    {
      "epoch": 2.533028707658687,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.00059736167676567,
      "loss": 0.5815,
      "step": 51000
    },
    {
      "epoch": 2.5335253799543063,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005973219429820205,
      "loss": 0.5638,
      "step": 51010
    },
    {
      "epoch": 2.5340220522499255,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.000597282209198371,
      "loss": 0.5659,
      "step": 51020
    },
    {
      "epoch": 2.5345187245455447,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0005972424754147214,
      "loss": 0.5737,
      "step": 51030
    },
    {
      "epoch": 2.535015396841164,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005972027416310718,
      "loss": 0.5632,
      "step": 51040
    },
    {
      "epoch": 2.5355120691367836,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0005971630078474223,
      "loss": 0.568,
      "step": 51050
    },
    {
      "epoch": 2.536008741432403,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005971232740637727,
      "loss": 0.5503,
      "step": 51060
    },
    {
      "epoch": 2.5365054137280225,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005970835402801231,
      "loss": 0.5756,
      "step": 51070
    },
    {
      "epoch": 2.5370020860236417,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005970438064964737,
      "loss": 0.5414,
      "step": 51080
    },
    {
      "epoch": 2.537498758319261,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0005970040727128242,
      "loss": 0.5714,
      "step": 51090
    },
    {
      "epoch": 2.53799543061488,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005969643389291745,
      "loss": 0.5618,
      "step": 51100
    },
    {
      "epoch": 2.5384921029104994,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.000596924605145525,
      "loss": 0.551,
      "step": 51110
    },
    {
      "epoch": 2.538988775206119,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005968848713618754,
      "loss": 0.5455,
      "step": 51120
    },
    {
      "epoch": 2.5394854475017383,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005968451375782259,
      "loss": 0.5642,
      "step": 51130
    },
    {
      "epoch": 2.5399821197973576,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005968054037945764,
      "loss": 0.5395,
      "step": 51140
    },
    {
      "epoch": 2.5404787920929772,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005967656700109268,
      "loss": 0.5503,
      "step": 51150
    },
    {
      "epoch": 2.5409754643885964,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0005967259362272772,
      "loss": 0.5227,
      "step": 51160
    },
    {
      "epoch": 2.5414721366842157,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005966862024436278,
      "loss": 0.5776,
      "step": 51170
    },
    {
      "epoch": 2.541968808979835,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005966464686599782,
      "loss": 0.5362,
      "step": 51180
    },
    {
      "epoch": 2.5424654812754546,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005966067348763286,
      "loss": 0.5623,
      "step": 51190
    },
    {
      "epoch": 2.542962153571074,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0005965670010926791,
      "loss": 0.5747,
      "step": 51200
    },
    {
      "epoch": 2.543458825866693,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005965272673090295,
      "loss": 0.5386,
      "step": 51210
    },
    {
      "epoch": 2.5439554981623127,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.00059648753352538,
      "loss": 0.5459,
      "step": 51220
    },
    {
      "epoch": 2.544452170457932,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005964477997417305,
      "loss": 0.5909,
      "step": 51230
    },
    {
      "epoch": 2.544948842753551,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0005964080659580809,
      "loss": 0.5465,
      "step": 51240
    },
    {
      "epoch": 2.5454455150491704,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005963683321744314,
      "loss": 0.5811,
      "step": 51250
    },
    {
      "epoch": 2.54594218734479,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005963285983907817,
      "loss": 0.5755,
      "step": 51260
    },
    {
      "epoch": 2.5464388596404093,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0005962888646071322,
      "loss": 0.5701,
      "step": 51270
    },
    {
      "epoch": 2.5469355319360285,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005962491308234828,
      "loss": 0.5748,
      "step": 51280
    },
    {
      "epoch": 2.547432204231648,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005962093970398331,
      "loss": 0.5806,
      "step": 51290
    },
    {
      "epoch": 2.5479288765272674,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005961696632561836,
      "loss": 0.5596,
      "step": 51300
    },
    {
      "epoch": 2.5484255488228866,
      "grad_norm": 0.103515625,
      "learning_rate": 0.000596129929472534,
      "loss": 0.5824,
      "step": 51310
    },
    {
      "epoch": 2.548922221118506,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0005960901956888844,
      "loss": 0.5651,
      "step": 51320
    },
    {
      "epoch": 2.549418893414125,
      "grad_norm": 0.193359375,
      "learning_rate": 0.000596050461905235,
      "loss": 0.5594,
      "step": 51330
    },
    {
      "epoch": 2.5499155657097448,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005960107281215854,
      "loss": 0.5409,
      "step": 51340
    },
    {
      "epoch": 2.550412238005364,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005959709943379358,
      "loss": 0.5479,
      "step": 51350
    },
    {
      "epoch": 2.5509089103009837,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005959312605542863,
      "loss": 0.5584,
      "step": 51360
    },
    {
      "epoch": 2.551405582596603,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005958915267706367,
      "loss": 0.568,
      "step": 51370
    },
    {
      "epoch": 2.551902254892222,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0005958517929869873,
      "loss": 0.5619,
      "step": 51380
    },
    {
      "epoch": 2.5523989271878413,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005958120592033377,
      "loss": 0.5573,
      "step": 51390
    },
    {
      "epoch": 2.5528955994834606,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005957723254196881,
      "loss": 0.561,
      "step": 51400
    },
    {
      "epoch": 2.5533922717790802,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005957325916360386,
      "loss": 0.5522,
      "step": 51410
    },
    {
      "epoch": 2.5538889440746995,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.000595692857852389,
      "loss": 0.5504,
      "step": 51420
    },
    {
      "epoch": 2.554385616370319,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0005956531240687395,
      "loss": 0.5398,
      "step": 51430
    },
    {
      "epoch": 2.5548822886659384,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.00059561339028509,
      "loss": 0.5599,
      "step": 51440
    },
    {
      "epoch": 2.5553789609615576,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005955736565014403,
      "loss": 0.5635,
      "step": 51450
    },
    {
      "epoch": 2.555875633257177,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005955339227177908,
      "loss": 0.5605,
      "step": 51460
    },
    {
      "epoch": 2.556372305552796,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005954941889341414,
      "loss": 0.5695,
      "step": 51470
    },
    {
      "epoch": 2.5568689778484157,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005954544551504917,
      "loss": 0.576,
      "step": 51480
    },
    {
      "epoch": 2.557365650144035,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0005954147213668422,
      "loss": 0.5342,
      "step": 51490
    },
    {
      "epoch": 2.557862322439654,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0005953749875831927,
      "loss": 0.5262,
      "step": 51500
    },
    {
      "epoch": 2.558358994735274,
      "grad_norm": 0.09765625,
      "learning_rate": 0.000595335253799543,
      "loss": 0.5752,
      "step": 51510
    },
    {
      "epoch": 2.558855667030893,
      "grad_norm": 0.0859375,
      "learning_rate": 0.0005952955200158935,
      "loss": 0.5404,
      "step": 51520
    },
    {
      "epoch": 2.5593523393265123,
      "grad_norm": 0.10546875,
      "learning_rate": 0.000595255786232244,
      "loss": 0.583,
      "step": 51530
    },
    {
      "epoch": 2.5598490116221315,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005952160524485945,
      "loss": 0.5767,
      "step": 51540
    },
    {
      "epoch": 2.560345683917751,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005951763186649449,
      "loss": 0.5468,
      "step": 51550
    },
    {
      "epoch": 2.5608423562133704,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005951365848812953,
      "loss": 0.5662,
      "step": 51560
    },
    {
      "epoch": 2.5613390285089896,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005950968510976458,
      "loss": 0.5559,
      "step": 51570
    },
    {
      "epoch": 2.5618357008046093,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005950571173139963,
      "loss": 0.5359,
      "step": 51580
    },
    {
      "epoch": 2.5623323731002285,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0005950173835303467,
      "loss": 0.5524,
      "step": 51590
    },
    {
      "epoch": 2.5628290453958478,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005949776497466972,
      "loss": 0.5748,
      "step": 51600
    },
    {
      "epoch": 2.563325717691467,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005949379159630476,
      "loss": 0.589,
      "step": 51610
    },
    {
      "epoch": 2.5638223899870867,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.000594898182179398,
      "loss": 0.5767,
      "step": 51620
    },
    {
      "epoch": 2.564319062282706,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0005948584483957486,
      "loss": 0.5685,
      "step": 51630
    },
    {
      "epoch": 2.564815734578325,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005948187146120989,
      "loss": 0.5551,
      "step": 51640
    },
    {
      "epoch": 2.565312406873945,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005947789808284494,
      "loss": 0.5697,
      "step": 51650
    },
    {
      "epoch": 2.565809079169564,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005947392470447999,
      "loss": 0.5754,
      "step": 51660
    },
    {
      "epoch": 2.5663057514651832,
      "grad_norm": 0.1875,
      "learning_rate": 0.0005946995132611503,
      "loss": 0.5471,
      "step": 51670
    },
    {
      "epoch": 2.5668024237608025,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005946597794775008,
      "loss": 0.5898,
      "step": 51680
    },
    {
      "epoch": 2.5672990960564217,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0005946200456938513,
      "loss": 0.5595,
      "step": 51690
    },
    {
      "epoch": 2.5677957683520414,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0005945803119102017,
      "loss": 0.5411,
      "step": 51700
    },
    {
      "epoch": 2.5682924406476606,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005945405781265521,
      "loss": 0.5632,
      "step": 51710
    },
    {
      "epoch": 2.5687891129432803,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0005945008443429025,
      "loss": 0.5642,
      "step": 51720
    },
    {
      "epoch": 2.5692857852388995,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0005944611105592531,
      "loss": 0.5499,
      "step": 51730
    },
    {
      "epoch": 2.5697824575345187,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005944213767756035,
      "loss": 0.5764,
      "step": 51740
    },
    {
      "epoch": 2.570279129830138,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005943816429919539,
      "loss": 0.53,
      "step": 51750
    },
    {
      "epoch": 2.570775802125757,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005943419092083044,
      "loss": 0.6109,
      "step": 51760
    },
    {
      "epoch": 2.571272474421377,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005943021754246548,
      "loss": 0.5751,
      "step": 51770
    },
    {
      "epoch": 2.571769146716996,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0005942624416410053,
      "loss": 0.5906,
      "step": 51780
    },
    {
      "epoch": 2.5722658190126158,
      "grad_norm": 0.15625,
      "learning_rate": 0.0005942227078573558,
      "loss": 0.5624,
      "step": 51790
    },
    {
      "epoch": 2.572762491308235,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005941829740737062,
      "loss": 0.5324,
      "step": 51800
    },
    {
      "epoch": 2.573259163603854,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005941432402900566,
      "loss": 0.5542,
      "step": 51810
    },
    {
      "epoch": 2.5737558358994734,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0005941035065064071,
      "loss": 0.5472,
      "step": 51820
    },
    {
      "epoch": 2.5742525081950927,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005940637727227576,
      "loss": 0.5527,
      "step": 51830
    },
    {
      "epoch": 2.5747491804907123,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.000594024038939108,
      "loss": 0.5812,
      "step": 51840
    },
    {
      "epoch": 2.5752458527863316,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005939843051554585,
      "loss": 0.5717,
      "step": 51850
    },
    {
      "epoch": 2.575742525081951,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005939445713718089,
      "loss": 0.5504,
      "step": 51860
    },
    {
      "epoch": 2.5762391973775705,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005939048375881593,
      "loss": 0.5747,
      "step": 51870
    },
    {
      "epoch": 2.5767358696731897,
      "grad_norm": 0.0830078125,
      "learning_rate": 0.0005938651038045099,
      "loss": 0.5129,
      "step": 51880
    },
    {
      "epoch": 2.577232541968809,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005938253700208603,
      "loss": 0.5677,
      "step": 51890
    },
    {
      "epoch": 2.577729214264428,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0005937856362372107,
      "loss": 0.5708,
      "step": 51900
    },
    {
      "epoch": 2.578225886560048,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005937459024535611,
      "loss": 0.5443,
      "step": 51910
    },
    {
      "epoch": 2.578722558855667,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005937061686699116,
      "loss": 0.5586,
      "step": 51920
    },
    {
      "epoch": 2.5792192311512863,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005936664348862621,
      "loss": 0.5766,
      "step": 51930
    },
    {
      "epoch": 2.579715903446906,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005936267011026125,
      "loss": 0.579,
      "step": 51940
    },
    {
      "epoch": 2.580212575742525,
      "grad_norm": 0.095703125,
      "learning_rate": 0.000593586967318963,
      "loss": 0.5805,
      "step": 51950
    },
    {
      "epoch": 2.5807092480381444,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005935472335353134,
      "loss": 0.5551,
      "step": 51960
    },
    {
      "epoch": 2.5812059203337636,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005935074997516638,
      "loss": 0.5564,
      "step": 51970
    },
    {
      "epoch": 2.5817025926293833,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005934677659680144,
      "loss": 0.5701,
      "step": 51980
    },
    {
      "epoch": 2.5821992649250025,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005934280321843648,
      "loss": 0.5799,
      "step": 51990
    },
    {
      "epoch": 2.5826959372206217,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005933882984007152,
      "loss": 0.5812,
      "step": 52000
    },
    {
      "epoch": 2.5831926095162414,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0005933485646170657,
      "loss": 0.5707,
      "step": 52010
    },
    {
      "epoch": 2.5836892818118606,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005933088308334161,
      "loss": 0.5802,
      "step": 52020
    },
    {
      "epoch": 2.58418595410748,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005932690970497666,
      "loss": 0.5655,
      "step": 52030
    },
    {
      "epoch": 2.584682626403099,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005932293632661171,
      "loss": 0.5621,
      "step": 52040
    },
    {
      "epoch": 2.5851792986987183,
      "grad_norm": 0.140625,
      "learning_rate": 0.0005931896294824675,
      "loss": 0.5851,
      "step": 52050
    },
    {
      "epoch": 2.585675970994338,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0005931498956988179,
      "loss": 0.5652,
      "step": 52060
    },
    {
      "epoch": 2.586172643289957,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005931101619151684,
      "loss": 0.5645,
      "step": 52070
    },
    {
      "epoch": 2.586669315585577,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005930704281315189,
      "loss": 0.5482,
      "step": 52080
    },
    {
      "epoch": 2.587165987881196,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005930306943478693,
      "loss": 0.5524,
      "step": 52090
    },
    {
      "epoch": 2.5876626601768153,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005929909605642197,
      "loss": 0.5543,
      "step": 52100
    },
    {
      "epoch": 2.5881593324724346,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005929512267805702,
      "loss": 0.5657,
      "step": 52110
    },
    {
      "epoch": 2.588656004768054,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005929114929969207,
      "loss": 0.5542,
      "step": 52120
    },
    {
      "epoch": 2.5891526770636735,
      "grad_norm": 0.12890625,
      "learning_rate": 0.000592871759213271,
      "loss": 0.571,
      "step": 52130
    },
    {
      "epoch": 2.5896493493592927,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005928320254296216,
      "loss": 0.5935,
      "step": 52140
    },
    {
      "epoch": 2.590146021654912,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005927922916459721,
      "loss": 0.5556,
      "step": 52150
    },
    {
      "epoch": 2.5906426939505316,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005927525578623224,
      "loss": 0.5633,
      "step": 52160
    },
    {
      "epoch": 2.591139366246151,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005927128240786729,
      "loss": 0.5721,
      "step": 52170
    },
    {
      "epoch": 2.59163603854177,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005926730902950234,
      "loss": 0.5669,
      "step": 52180
    },
    {
      "epoch": 2.5921327108373893,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005926333565113738,
      "loss": 0.5699,
      "step": 52190
    },
    {
      "epoch": 2.592629383133009,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0005925936227277243,
      "loss": 0.5165,
      "step": 52200
    },
    {
      "epoch": 2.593126055428628,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005925538889440747,
      "loss": 0.5432,
      "step": 52210
    },
    {
      "epoch": 2.5936227277242474,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0005925141551604251,
      "loss": 0.5869,
      "step": 52220
    },
    {
      "epoch": 2.594119400019867,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0005924744213767757,
      "loss": 0.5908,
      "step": 52230
    },
    {
      "epoch": 2.5946160723154863,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0005924346875931261,
      "loss": 0.5426,
      "step": 52240
    },
    {
      "epoch": 2.5951127446111055,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005923949538094765,
      "loss": 0.5939,
      "step": 52250
    },
    {
      "epoch": 2.5956094169067248,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.000592355220025827,
      "loss": 0.5533,
      "step": 52260
    },
    {
      "epoch": 2.5961060892023444,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005923154862421774,
      "loss": 0.5361,
      "step": 52270
    },
    {
      "epoch": 2.5966027614979637,
      "grad_norm": 0.1484375,
      "learning_rate": 0.000592275752458528,
      "loss": 0.5498,
      "step": 52280
    },
    {
      "epoch": 2.597099433793583,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005922360186748784,
      "loss": 0.5545,
      "step": 52290
    },
    {
      "epoch": 2.5975961060892026,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0005921962848912288,
      "loss": 0.5817,
      "step": 52300
    },
    {
      "epoch": 2.5980927783848218,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005921565511075793,
      "loss": 0.5931,
      "step": 52310
    },
    {
      "epoch": 2.598589450680441,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005921168173239296,
      "loss": 0.5344,
      "step": 52320
    },
    {
      "epoch": 2.5990861229760602,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005920770835402802,
      "loss": 0.5631,
      "step": 52330
    },
    {
      "epoch": 2.59958279527168,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005920373497566307,
      "loss": 0.5554,
      "step": 52340
    },
    {
      "epoch": 2.600079467567299,
      "grad_norm": 0.1484375,
      "learning_rate": 0.000591997615972981,
      "loss": 0.5733,
      "step": 52350
    },
    {
      "epoch": 2.6005761398629184,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005919578821893315,
      "loss": 0.5849,
      "step": 52360
    },
    {
      "epoch": 2.601072812158538,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005919181484056819,
      "loss": 0.5489,
      "step": 52370
    },
    {
      "epoch": 2.6015694844541573,
      "grad_norm": 0.087890625,
      "learning_rate": 0.0005918784146220323,
      "loss": 0.5192,
      "step": 52380
    },
    {
      "epoch": 2.6020661567497765,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005918386808383829,
      "loss": 0.5245,
      "step": 52390
    },
    {
      "epoch": 2.6025628290453957,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005917989470547333,
      "loss": 0.5205,
      "step": 52400
    },
    {
      "epoch": 2.603059501341015,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005917592132710837,
      "loss": 0.5696,
      "step": 52410
    },
    {
      "epoch": 2.6035561736366346,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005917194794874342,
      "loss": 0.5737,
      "step": 52420
    },
    {
      "epoch": 2.604052845932254,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005916797457037846,
      "loss": 0.5474,
      "step": 52430
    },
    {
      "epoch": 2.6045495182278735,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005916400119201352,
      "loss": 0.5651,
      "step": 52440
    },
    {
      "epoch": 2.6050461905234927,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005916002781364856,
      "loss": 0.5621,
      "step": 52450
    },
    {
      "epoch": 2.605542862819112,
      "grad_norm": 0.1484375,
      "learning_rate": 0.000591560544352836,
      "loss": 0.5554,
      "step": 52460
    },
    {
      "epoch": 2.606039535114731,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005915208105691865,
      "loss": 0.5747,
      "step": 52470
    },
    {
      "epoch": 2.6065362074103504,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.000591481076785537,
      "loss": 0.5467,
      "step": 52480
    },
    {
      "epoch": 2.60703287970597,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005914413430018874,
      "loss": 0.5722,
      "step": 52490
    },
    {
      "epoch": 2.6075295520015893,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0005914016092182379,
      "loss": 0.5646,
      "step": 52500
    },
    {
      "epoch": 2.6080262242972085,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005913618754345882,
      "loss": 0.6004,
      "step": 52510
    },
    {
      "epoch": 2.608522896592828,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0005913221416509387,
      "loss": 0.5948,
      "step": 52520
    },
    {
      "epoch": 2.6090195688884474,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0005912824078672893,
      "loss": 0.5654,
      "step": 52530
    },
    {
      "epoch": 2.6095162411840667,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005912426740836396,
      "loss": 0.5787,
      "step": 52540
    },
    {
      "epoch": 2.610012913479686,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0005912029402999901,
      "loss": 0.5808,
      "step": 52550
    },
    {
      "epoch": 2.6105095857753056,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005911632065163406,
      "loss": 0.5478,
      "step": 52560
    },
    {
      "epoch": 2.611006258070925,
      "grad_norm": 0.095703125,
      "learning_rate": 0.000591123472732691,
      "loss": 0.5723,
      "step": 52570
    },
    {
      "epoch": 2.611502930366544,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0005910837389490414,
      "loss": 0.541,
      "step": 52580
    },
    {
      "epoch": 2.6119996026621637,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005910440051653919,
      "loss": 0.5594,
      "step": 52590
    },
    {
      "epoch": 2.612496274957783,
      "grad_norm": 0.125,
      "learning_rate": 0.0005910042713817424,
      "loss": 0.5633,
      "step": 52600
    },
    {
      "epoch": 2.612992947253402,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005909645375980928,
      "loss": 0.5304,
      "step": 52610
    },
    {
      "epoch": 2.6134896195490214,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005909248038144432,
      "loss": 0.5781,
      "step": 52620
    },
    {
      "epoch": 2.613986291844641,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005908850700307938,
      "loss": 0.525,
      "step": 52630
    },
    {
      "epoch": 2.6144829641402603,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005908453362471442,
      "loss": 0.551,
      "step": 52640
    },
    {
      "epoch": 2.6149796364358795,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005908056024634946,
      "loss": 0.5546,
      "step": 52650
    },
    {
      "epoch": 2.615476308731499,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005907658686798451,
      "loss": 0.5552,
      "step": 52660
    },
    {
      "epoch": 2.6159729810271184,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005907261348961955,
      "loss": 0.5338,
      "step": 52670
    },
    {
      "epoch": 2.6164696533227376,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005906864011125459,
      "loss": 0.5431,
      "step": 52680
    },
    {
      "epoch": 2.616966325618357,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005906466673288965,
      "loss": 0.5516,
      "step": 52690
    },
    {
      "epoch": 2.6174629979139765,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005906069335452468,
      "loss": 0.5614,
      "step": 52700
    },
    {
      "epoch": 2.6179596702095957,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005905671997615973,
      "loss": 0.5881,
      "step": 52710
    },
    {
      "epoch": 2.618456342505215,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005905274659779478,
      "loss": 0.5574,
      "step": 52720
    },
    {
      "epoch": 2.6189530148008346,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005904877321942982,
      "loss": 0.5601,
      "step": 52730
    },
    {
      "epoch": 2.619449687096454,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005904479984106487,
      "loss": 0.5525,
      "step": 52740
    },
    {
      "epoch": 2.619946359392073,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005904082646269992,
      "loss": 0.5587,
      "step": 52750
    },
    {
      "epoch": 2.6204430316876923,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005903685308433496,
      "loss": 0.5613,
      "step": 52760
    },
    {
      "epoch": 2.6209397039833116,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005903287970597,
      "loss": 0.53,
      "step": 52770
    },
    {
      "epoch": 2.6214363762789312,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005902890632760504,
      "loss": 0.571,
      "step": 52780
    },
    {
      "epoch": 2.6219330485745505,
      "grad_norm": 0.126953125,
      "learning_rate": 0.000590249329492401,
      "loss": 0.5459,
      "step": 52790
    },
    {
      "epoch": 2.62242972087017,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005902095957087514,
      "loss": 0.5785,
      "step": 52800
    },
    {
      "epoch": 2.6229263931657893,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005901698619251018,
      "loss": 0.5447,
      "step": 52810
    },
    {
      "epoch": 2.6234230654614086,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005901301281414523,
      "loss": 0.5534,
      "step": 52820
    },
    {
      "epoch": 2.623919737757028,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005900903943578027,
      "loss": 0.5597,
      "step": 52830
    },
    {
      "epoch": 2.624416410052647,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0005900506605741532,
      "loss": 0.5841,
      "step": 52840
    },
    {
      "epoch": 2.6249130823482667,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005900109267905037,
      "loss": 0.5437,
      "step": 52850
    },
    {
      "epoch": 2.625409754643886,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005899711930068541,
      "loss": 0.5652,
      "step": 52860
    },
    {
      "epoch": 2.625906426939505,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0005899314592232045,
      "loss": 0.563,
      "step": 52870
    },
    {
      "epoch": 2.626403099235125,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.000589891725439555,
      "loss": 0.5704,
      "step": 52880
    },
    {
      "epoch": 2.626899771530744,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005898519916559055,
      "loss": 0.5478,
      "step": 52890
    },
    {
      "epoch": 2.6273964438263633,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005898122578722559,
      "loss": 0.5751,
      "step": 52900
    },
    {
      "epoch": 2.6278931161219825,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005897725240886064,
      "loss": 0.5358,
      "step": 52910
    },
    {
      "epoch": 2.628389788417602,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005897327903049568,
      "loss": 0.5574,
      "step": 52920
    },
    {
      "epoch": 2.6288864607132214,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0005896930565213072,
      "loss": 0.5408,
      "step": 52930
    },
    {
      "epoch": 2.6293831330088406,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0005896533227376578,
      "loss": 0.5505,
      "step": 52940
    },
    {
      "epoch": 2.6298798053044603,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0005896135889540082,
      "loss": 0.5553,
      "step": 52950
    },
    {
      "epoch": 2.6303764776000795,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005895738551703586,
      "loss": 0.5837,
      "step": 52960
    },
    {
      "epoch": 2.6308731498956988,
      "grad_norm": 0.125,
      "learning_rate": 0.000589534121386709,
      "loss": 0.5853,
      "step": 52970
    },
    {
      "epoch": 2.631369822191318,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005894943876030595,
      "loss": 0.5668,
      "step": 52980
    },
    {
      "epoch": 2.6318664944869377,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.00058945465381941,
      "loss": 0.5911,
      "step": 52990
    },
    {
      "epoch": 2.632363166782557,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005894149200357604,
      "loss": 0.5381,
      "step": 53000
    },
    {
      "epoch": 2.632859839078176,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005893751862521109,
      "loss": 0.543,
      "step": 53010
    },
    {
      "epoch": 2.633356511373796,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005893354524684614,
      "loss": 0.5565,
      "step": 53020
    },
    {
      "epoch": 2.633853183669415,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005892957186848117,
      "loss": 0.5544,
      "step": 53030
    },
    {
      "epoch": 2.6343498559650342,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005892559849011623,
      "loss": 0.5533,
      "step": 53040
    },
    {
      "epoch": 2.6348465282606535,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005892162511175127,
      "loss": 0.5711,
      "step": 53050
    },
    {
      "epoch": 2.635343200556273,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005891765173338631,
      "loss": 0.5413,
      "step": 53060
    },
    {
      "epoch": 2.6358398728518924,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005891367835502136,
      "loss": 0.5541,
      "step": 53070
    },
    {
      "epoch": 2.6363365451475116,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.000589097049766564,
      "loss": 0.6096,
      "step": 53080
    },
    {
      "epoch": 2.6368332174431313,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005890573159829145,
      "loss": 0.5926,
      "step": 53090
    },
    {
      "epoch": 2.6373298897387505,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.000589017582199265,
      "loss": 0.5598,
      "step": 53100
    },
    {
      "epoch": 2.6378265620343697,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005889778484156154,
      "loss": 0.5967,
      "step": 53110
    },
    {
      "epoch": 2.638323234329989,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005889381146319658,
      "loss": 0.5706,
      "step": 53120
    },
    {
      "epoch": 2.638819906625608,
      "grad_norm": 0.125,
      "learning_rate": 0.0005888983808483163,
      "loss": 0.5699,
      "step": 53130
    },
    {
      "epoch": 2.639316578921228,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0005888586470646668,
      "loss": 0.5778,
      "step": 53140
    },
    {
      "epoch": 2.639813251216847,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005888189132810172,
      "loss": 0.5371,
      "step": 53150
    },
    {
      "epoch": 2.6403099235124667,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005887791794973677,
      "loss": 0.5268,
      "step": 53160
    },
    {
      "epoch": 2.640806595808086,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005887394457137181,
      "loss": 0.5741,
      "step": 53170
    },
    {
      "epoch": 2.641303268103705,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005886997119300686,
      "loss": 0.5917,
      "step": 53180
    },
    {
      "epoch": 2.6417999403993244,
      "grad_norm": 0.150390625,
      "learning_rate": 0.000588659978146419,
      "loss": 0.5463,
      "step": 53190
    },
    {
      "epoch": 2.6422966126949436,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005886202443627695,
      "loss": 0.5711,
      "step": 53200
    },
    {
      "epoch": 2.6427932849905633,
      "grad_norm": 0.11328125,
      "learning_rate": 0.00058858051057912,
      "loss": 0.5452,
      "step": 53210
    },
    {
      "epoch": 2.6432899572861825,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0005885407767954703,
      "loss": 0.5595,
      "step": 53220
    },
    {
      "epoch": 2.6437866295818018,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005885010430118208,
      "loss": 0.5474,
      "step": 53230
    },
    {
      "epoch": 2.6442833018774214,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005884613092281713,
      "loss": 0.5801,
      "step": 53240
    },
    {
      "epoch": 2.6447799741730407,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005884215754445217,
      "loss": 0.5728,
      "step": 53250
    },
    {
      "epoch": 2.64527664646866,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0005883818416608722,
      "loss": 0.5775,
      "step": 53260
    },
    {
      "epoch": 2.645773318764279,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0005883421078772226,
      "loss": 0.5507,
      "step": 53270
    },
    {
      "epoch": 2.646269991059899,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.000588302374093573,
      "loss": 0.5794,
      "step": 53280
    },
    {
      "epoch": 2.646766663355518,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005882626403099236,
      "loss": 0.5759,
      "step": 53290
    },
    {
      "epoch": 2.6472633356511373,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.000588222906526274,
      "loss": 0.5717,
      "step": 53300
    },
    {
      "epoch": 2.647760007946757,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005881831727426245,
      "loss": 0.5721,
      "step": 53310
    },
    {
      "epoch": 2.648256680242376,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005881434389589749,
      "loss": 0.5629,
      "step": 53320
    },
    {
      "epoch": 2.6487533525379954,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005881037051753253,
      "loss": 0.5881,
      "step": 53330
    },
    {
      "epoch": 2.6492500248336146,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005880639713916759,
      "loss": 0.5568,
      "step": 53340
    },
    {
      "epoch": 2.6497466971292343,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0005880242376080263,
      "loss": 0.5692,
      "step": 53350
    },
    {
      "epoch": 2.6502433694248535,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005879845038243767,
      "loss": 0.5416,
      "step": 53360
    },
    {
      "epoch": 2.6507400417204727,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0005879447700407272,
      "loss": 0.5644,
      "step": 53370
    },
    {
      "epoch": 2.6512367140160924,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005879050362570775,
      "loss": 0.5573,
      "step": 53380
    },
    {
      "epoch": 2.6517333863117116,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005878653024734281,
      "loss": 0.5575,
      "step": 53390
    },
    {
      "epoch": 2.652230058607331,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005878255686897786,
      "loss": 0.5463,
      "step": 53400
    },
    {
      "epoch": 2.65272673090295,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005877858349061289,
      "loss": 0.5543,
      "step": 53410
    },
    {
      "epoch": 2.6532234031985693,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0005877461011224794,
      "loss": 0.5464,
      "step": 53420
    },
    {
      "epoch": 2.653720075494189,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005877063673388299,
      "loss": 0.5422,
      "step": 53430
    },
    {
      "epoch": 2.654216747789808,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005876666335551802,
      "loss": 0.5569,
      "step": 53440
    },
    {
      "epoch": 2.654713420085428,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005876268997715308,
      "loss": 0.5385,
      "step": 53450
    },
    {
      "epoch": 2.655210092381047,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0005875871659878812,
      "loss": 0.5348,
      "step": 53460
    },
    {
      "epoch": 2.6557067646766663,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005875474322042317,
      "loss": 0.5475,
      "step": 53470
    },
    {
      "epoch": 2.6562034369722856,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005875076984205821,
      "loss": 0.5525,
      "step": 53480
    },
    {
      "epoch": 2.656700109267905,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0005874679646369326,
      "loss": 0.5494,
      "step": 53490
    },
    {
      "epoch": 2.6571967815635245,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005874282308532831,
      "loss": 0.5446,
      "step": 53500
    },
    {
      "epoch": 2.6576934538591437,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005873884970696335,
      "loss": 0.5354,
      "step": 53510
    },
    {
      "epoch": 2.6581901261547634,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005873487632859839,
      "loss": 0.5875,
      "step": 53520
    },
    {
      "epoch": 2.6586867984503826,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0005873090295023344,
      "loss": 0.5827,
      "step": 53530
    },
    {
      "epoch": 2.659183470746002,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005872692957186849,
      "loss": 0.5811,
      "step": 53540
    },
    {
      "epoch": 2.659680143041621,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005872295619350353,
      "loss": 0.5338,
      "step": 53550
    },
    {
      "epoch": 2.6601768153372403,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005871898281513858,
      "loss": 0.5841,
      "step": 53560
    },
    {
      "epoch": 2.66067348763286,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005871500943677361,
      "loss": 0.5524,
      "step": 53570
    },
    {
      "epoch": 2.661170159928479,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005871103605840866,
      "loss": 0.5401,
      "step": 53580
    },
    {
      "epoch": 2.6616668322240984,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0005870706268004372,
      "loss": 0.5596,
      "step": 53590
    },
    {
      "epoch": 2.662163504519718,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005870308930167875,
      "loss": 0.5294,
      "step": 53600
    },
    {
      "epoch": 2.6626601768153373,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.000586991159233138,
      "loss": 0.5505,
      "step": 53610
    },
    {
      "epoch": 2.6631568491109565,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005869514254494885,
      "loss": 0.5808,
      "step": 53620
    },
    {
      "epoch": 2.6636535214065757,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005869116916658389,
      "loss": 0.559,
      "step": 53630
    },
    {
      "epoch": 2.6641501937021954,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005868719578821894,
      "loss": 0.5737,
      "step": 53640
    },
    {
      "epoch": 2.6646468659978146,
      "grad_norm": 0.140625,
      "learning_rate": 0.0005868322240985398,
      "loss": 0.5706,
      "step": 53650
    },
    {
      "epoch": 2.665143538293434,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005867924903148903,
      "loss": 0.5827,
      "step": 53660
    },
    {
      "epoch": 2.6656402105890535,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005867527565312407,
      "loss": 0.5591,
      "step": 53670
    },
    {
      "epoch": 2.6661368828846728,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005867130227475911,
      "loss": 0.5814,
      "step": 53680
    },
    {
      "epoch": 2.666633555180292,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005866732889639417,
      "loss": 0.5339,
      "step": 53690
    },
    {
      "epoch": 2.667130227475911,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005866335551802921,
      "loss": 0.5854,
      "step": 53700
    },
    {
      "epoch": 2.667626899771531,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005865938213966425,
      "loss": 0.5793,
      "step": 53710
    },
    {
      "epoch": 2.66812357206715,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.000586554087612993,
      "loss": 0.5616,
      "step": 53720
    },
    {
      "epoch": 2.6686202443627693,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005865143538293434,
      "loss": 0.5383,
      "step": 53730
    },
    {
      "epoch": 2.669116916658389,
      "grad_norm": 0.125,
      "learning_rate": 0.0005864746200456938,
      "loss": 0.5441,
      "step": 53740
    },
    {
      "epoch": 2.6696135889540082,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005864348862620444,
      "loss": 0.554,
      "step": 53750
    },
    {
      "epoch": 2.6701102612496275,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0005863951524783948,
      "loss": 0.5615,
      "step": 53760
    },
    {
      "epoch": 2.6706069335452467,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0005863554186947452,
      "loss": 0.5313,
      "step": 53770
    },
    {
      "epoch": 2.671103605840866,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005863156849110957,
      "loss": 0.5787,
      "step": 53780
    },
    {
      "epoch": 2.6716002781364856,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005862759511274462,
      "loss": 0.5651,
      "step": 53790
    },
    {
      "epoch": 2.672096950432105,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005862362173437966,
      "loss": 0.5787,
      "step": 53800
    },
    {
      "epoch": 2.6725936227277245,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005861964835601471,
      "loss": 0.554,
      "step": 53810
    },
    {
      "epoch": 2.6730902950233437,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005861567497764975,
      "loss": 0.5671,
      "step": 53820
    },
    {
      "epoch": 2.673586967318963,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0005861170159928479,
      "loss": 0.5346,
      "step": 53830
    },
    {
      "epoch": 2.674083639614582,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005860772822091983,
      "loss": 0.5534,
      "step": 53840
    },
    {
      "epoch": 2.6745803119102014,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005860375484255489,
      "loss": 0.5411,
      "step": 53850
    },
    {
      "epoch": 2.675076984205821,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005859978146418993,
      "loss": 0.5475,
      "step": 53860
    },
    {
      "epoch": 2.6755736565014403,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005859580808582497,
      "loss": 0.5515,
      "step": 53870
    },
    {
      "epoch": 2.67607032879706,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005859183470746002,
      "loss": 0.575,
      "step": 53880
    },
    {
      "epoch": 2.676567001092679,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005858786132909506,
      "loss": 0.531,
      "step": 53890
    },
    {
      "epoch": 2.6770636733882984,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005858388795073011,
      "loss": 0.5366,
      "step": 53900
    },
    {
      "epoch": 2.6775603456839177,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0005857991457236516,
      "loss": 0.5634,
      "step": 53910
    },
    {
      "epoch": 2.678057017979537,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.000585759411940002,
      "loss": 0.542,
      "step": 53920
    },
    {
      "epoch": 2.6785536902751566,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005857196781563524,
      "loss": 0.5662,
      "step": 53930
    },
    {
      "epoch": 2.679050362570776,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.000585679944372703,
      "loss": 0.5822,
      "step": 53940
    },
    {
      "epoch": 2.679547034866395,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005856402105890534,
      "loss": 0.5319,
      "step": 53950
    },
    {
      "epoch": 2.6800437071620147,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0005856004768054038,
      "loss": 0.5512,
      "step": 53960
    },
    {
      "epoch": 2.680540379457634,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005855607430217543,
      "loss": 0.5579,
      "step": 53970
    },
    {
      "epoch": 2.681037051753253,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0005855210092381047,
      "loss": 0.5863,
      "step": 53980
    },
    {
      "epoch": 2.6815337240488724,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0005854812754544551,
      "loss": 0.5027,
      "step": 53990
    },
    {
      "epoch": 2.682030396344492,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005854415416708057,
      "loss": 0.5308,
      "step": 54000
    },
    {
      "epoch": 2.6825270686401113,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005854018078871561,
      "loss": 0.5463,
      "step": 54010
    },
    {
      "epoch": 2.6830237409357305,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005853620741035065,
      "loss": 0.5609,
      "step": 54020
    },
    {
      "epoch": 2.68352041323135,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.000585322340319857,
      "loss": 0.5414,
      "step": 54030
    },
    {
      "epoch": 2.6840170855269694,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005852826065362074,
      "loss": 0.556,
      "step": 54040
    },
    {
      "epoch": 2.6845137578225886,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005852428727525579,
      "loss": 0.5399,
      "step": 54050
    },
    {
      "epoch": 2.685010430118208,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0005852031389689083,
      "loss": 0.5864,
      "step": 54060
    },
    {
      "epoch": 2.6855071024138275,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0005851634051852588,
      "loss": 0.5751,
      "step": 54070
    },
    {
      "epoch": 2.6860037747094467,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005851236714016093,
      "loss": 0.5782,
      "step": 54080
    },
    {
      "epoch": 2.686500447005066,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005850839376179596,
      "loss": 0.5686,
      "step": 54090
    },
    {
      "epoch": 2.6869971193006856,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0005850442038343102,
      "loss": 0.5474,
      "step": 54100
    },
    {
      "epoch": 2.687493791596305,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005850044700506606,
      "loss": 0.5418,
      "step": 54110
    },
    {
      "epoch": 2.687990463891924,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.000584964736267011,
      "loss": 0.541,
      "step": 54120
    },
    {
      "epoch": 2.6884871361875433,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005849250024833615,
      "loss": 0.5756,
      "step": 54130
    },
    {
      "epoch": 2.6889838084831625,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005848852686997119,
      "loss": 0.5503,
      "step": 54140
    },
    {
      "epoch": 2.689480480778782,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0005848455349160624,
      "loss": 0.551,
      "step": 54150
    },
    {
      "epoch": 2.6899771530744014,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005848058011324129,
      "loss": 0.5432,
      "step": 54160
    },
    {
      "epoch": 2.690473825370021,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005847660673487633,
      "loss": 0.5528,
      "step": 54170
    },
    {
      "epoch": 2.6909704976656403,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0005847263335651137,
      "loss": 0.5809,
      "step": 54180
    },
    {
      "epoch": 2.6914671699612596,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005846865997814642,
      "loss": 0.5633,
      "step": 54190
    },
    {
      "epoch": 2.691963842256879,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.0005846468659978147,
      "loss": 0.5667,
      "step": 54200
    },
    {
      "epoch": 2.692460514552498,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005846071322141652,
      "loss": 0.5571,
      "step": 54210
    },
    {
      "epoch": 2.6929571868481177,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005845673984305156,
      "loss": 0.5512,
      "step": 54220
    },
    {
      "epoch": 2.693453859143737,
      "grad_norm": 0.103515625,
      "learning_rate": 0.000584527664646866,
      "loss": 0.5544,
      "step": 54230
    },
    {
      "epoch": 2.6939505314393566,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005844879308632165,
      "loss": 0.5588,
      "step": 54240
    },
    {
      "epoch": 2.694447203734976,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0005844481970795669,
      "loss": 0.5605,
      "step": 54250
    },
    {
      "epoch": 2.694943876030595,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0005844084632959174,
      "loss": 0.5892,
      "step": 54260
    },
    {
      "epoch": 2.6954405483262143,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005843687295122679,
      "loss": 0.5496,
      "step": 54270
    },
    {
      "epoch": 2.6959372206218335,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0005843289957286182,
      "loss": 0.5694,
      "step": 54280
    },
    {
      "epoch": 2.696433892917453,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005842892619449687,
      "loss": 0.5944,
      "step": 54290
    },
    {
      "epoch": 2.6969305652130724,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0005842495281613193,
      "loss": 0.5402,
      "step": 54300
    },
    {
      "epoch": 2.6974272375086916,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005842097943776696,
      "loss": 0.5805,
      "step": 54310
    },
    {
      "epoch": 2.6979239098043113,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0005841700605940201,
      "loss": 0.5464,
      "step": 54320
    },
    {
      "epoch": 2.6984205820999305,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005841303268103705,
      "loss": 0.5548,
      "step": 54330
    },
    {
      "epoch": 2.6989172543955497,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005840905930267209,
      "loss": 0.5549,
      "step": 54340
    },
    {
      "epoch": 2.699413926691169,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005840508592430715,
      "loss": 0.5741,
      "step": 54350
    },
    {
      "epoch": 2.6999105989867886,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005840111254594219,
      "loss": 0.582,
      "step": 54360
    },
    {
      "epoch": 2.700407271282408,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005839713916757724,
      "loss": 0.5709,
      "step": 54370
    },
    {
      "epoch": 2.700903943578027,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005839316578921228,
      "loss": 0.5393,
      "step": 54380
    },
    {
      "epoch": 2.7014006158736468,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005838919241084732,
      "loss": 0.5663,
      "step": 54390
    },
    {
      "epoch": 2.701897288169266,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005838521903248238,
      "loss": 0.5497,
      "step": 54400
    },
    {
      "epoch": 2.7023939604648852,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005838124565411742,
      "loss": 0.5285,
      "step": 54410
    },
    {
      "epoch": 2.7028906327605045,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005837727227575246,
      "loss": 0.5538,
      "step": 54420
    },
    {
      "epoch": 2.703387305056124,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005837329889738751,
      "loss": 0.5732,
      "step": 54430
    },
    {
      "epoch": 2.7038839773517434,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005836932551902254,
      "loss": 0.5686,
      "step": 54440
    },
    {
      "epoch": 2.7043806496473626,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.000583653521406576,
      "loss": 0.5449,
      "step": 54450
    },
    {
      "epoch": 2.7048773219429822,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005836137876229265,
      "loss": 0.5793,
      "step": 54460
    },
    {
      "epoch": 2.7053739942386015,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0005835740538392768,
      "loss": 0.5356,
      "step": 54470
    },
    {
      "epoch": 2.7058706665342207,
      "grad_norm": 0.125,
      "learning_rate": 0.0005835343200556273,
      "loss": 0.5417,
      "step": 54480
    },
    {
      "epoch": 2.70636733882984,
      "grad_norm": 0.125,
      "learning_rate": 0.0005834945862719778,
      "loss": 0.5341,
      "step": 54490
    },
    {
      "epoch": 2.706864011125459,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005834548524883282,
      "loss": 0.5406,
      "step": 54500
    },
    {
      "epoch": 2.707360683421079,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0005834151187046787,
      "loss": 0.586,
      "step": 54510
    },
    {
      "epoch": 2.707857355716698,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.0005833753849210291,
      "loss": 0.5395,
      "step": 54520
    },
    {
      "epoch": 2.7083540280123177,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005833356511373796,
      "loss": 0.5561,
      "step": 54530
    },
    {
      "epoch": 2.708850700307937,
      "grad_norm": 0.103515625,
      "learning_rate": 0.00058329591735373,
      "loss": 0.5365,
      "step": 54540
    },
    {
      "epoch": 2.709347372603556,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005832561835700805,
      "loss": 0.5619,
      "step": 54550
    },
    {
      "epoch": 2.7098440448991754,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.000583216449786431,
      "loss": 0.5714,
      "step": 54560
    },
    {
      "epoch": 2.7103407171947946,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0005831767160027814,
      "loss": 0.5312,
      "step": 54570
    },
    {
      "epoch": 2.7108373894904143,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005831369822191318,
      "loss": 0.5659,
      "step": 54580
    },
    {
      "epoch": 2.7113340617860335,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005830972484354823,
      "loss": 0.5533,
      "step": 54590
    },
    {
      "epoch": 2.7118307340816528,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005830575146518328,
      "loss": 0.5633,
      "step": 54600
    },
    {
      "epoch": 2.7123274063772724,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0005830177808681832,
      "loss": 0.5577,
      "step": 54610
    },
    {
      "epoch": 2.7128240786728917,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005829780470845337,
      "loss": 0.572,
      "step": 54620
    },
    {
      "epoch": 2.713320750968511,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005829383133008841,
      "loss": 0.5672,
      "step": 54630
    },
    {
      "epoch": 2.71381742326413,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005828985795172345,
      "loss": 0.5401,
      "step": 54640
    },
    {
      "epoch": 2.71431409555975,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0005828588457335851,
      "loss": 0.5604,
      "step": 54650
    },
    {
      "epoch": 2.714810767855369,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005828191119499355,
      "loss": 0.5605,
      "step": 54660
    },
    {
      "epoch": 2.7153074401509882,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005827793781662859,
      "loss": 0.5624,
      "step": 54670
    },
    {
      "epoch": 2.715804112446608,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005827396443826364,
      "loss": 0.5725,
      "step": 54680
    },
    {
      "epoch": 2.716300784742227,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0005826999105989868,
      "loss": 0.5552,
      "step": 54690
    },
    {
      "epoch": 2.7167974570378464,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0005826601768153373,
      "loss": 0.5755,
      "step": 54700
    },
    {
      "epoch": 2.7172941293334656,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005826204430316877,
      "loss": 0.5701,
      "step": 54710
    },
    {
      "epoch": 2.7177908016290853,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005825807092480382,
      "loss": 0.5731,
      "step": 54720
    },
    {
      "epoch": 2.7182874739247045,
      "grad_norm": 0.140625,
      "learning_rate": 0.0005825409754643886,
      "loss": 0.5941,
      "step": 54730
    },
    {
      "epoch": 2.7187841462203237,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.000582501241680739,
      "loss": 0.5641,
      "step": 54740
    },
    {
      "epoch": 2.7192808185159434,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005824615078970896,
      "loss": 0.5417,
      "step": 54750
    },
    {
      "epoch": 2.7197774908115626,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.00058242177411344,
      "loss": 0.5744,
      "step": 54760
    },
    {
      "epoch": 2.720274163107182,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005823820403297904,
      "loss": 0.571,
      "step": 54770
    },
    {
      "epoch": 2.720770835402801,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005823423065461409,
      "loss": 0.5549,
      "step": 54780
    },
    {
      "epoch": 2.7212675076984207,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005823025727624913,
      "loss": 0.5888,
      "step": 54790
    },
    {
      "epoch": 2.72176417999404,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005822628389788418,
      "loss": 0.5551,
      "step": 54800
    },
    {
      "epoch": 2.722260852289659,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0005822231051951923,
      "loss": 0.5548,
      "step": 54810
    },
    {
      "epoch": 2.722757524585279,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005821833714115427,
      "loss": 0.5363,
      "step": 54820
    },
    {
      "epoch": 2.723254196880898,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0005821436376278931,
      "loss": 0.5589,
      "step": 54830
    },
    {
      "epoch": 2.7237508691765173,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0005821039038442436,
      "loss": 0.5889,
      "step": 54840
    },
    {
      "epoch": 2.7242475414721365,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005820641700605941,
      "loss": 0.5374,
      "step": 54850
    },
    {
      "epoch": 2.7247442137677558,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005820244362769445,
      "loss": 0.5606,
      "step": 54860
    },
    {
      "epoch": 2.7252408860633754,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.000581984702493295,
      "loss": 0.5569,
      "step": 54870
    },
    {
      "epoch": 2.7257375583589947,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0005819449687096454,
      "loss": 0.5761,
      "step": 54880
    },
    {
      "epoch": 2.7262342306546143,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005819052349259958,
      "loss": 0.5551,
      "step": 54890
    },
    {
      "epoch": 2.7267309029502336,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005818655011423464,
      "loss": 0.5721,
      "step": 54900
    },
    {
      "epoch": 2.727227575245853,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005818257673586968,
      "loss": 0.5725,
      "step": 54910
    },
    {
      "epoch": 2.727724247541472,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0005817860335750472,
      "loss": 0.5593,
      "step": 54920
    },
    {
      "epoch": 2.7282209198370913,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005817462997913976,
      "loss": 0.5551,
      "step": 54930
    },
    {
      "epoch": 2.728717592132711,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005817065660077481,
      "loss": 0.5658,
      "step": 54940
    },
    {
      "epoch": 2.72921426442833,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005816668322240986,
      "loss": 0.5853,
      "step": 54950
    },
    {
      "epoch": 2.7297109367239494,
      "grad_norm": 0.154296875,
      "learning_rate": 0.000581627098440449,
      "loss": 0.5695,
      "step": 54960
    },
    {
      "epoch": 2.730207609019569,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005815873646567995,
      "loss": 0.5309,
      "step": 54970
    },
    {
      "epoch": 2.7307042813151883,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005815476308731499,
      "loss": 0.5484,
      "step": 54980
    },
    {
      "epoch": 2.7312009536108075,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005815078970895003,
      "loss": 0.5488,
      "step": 54990
    },
    {
      "epoch": 2.7316976259064267,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005814681633058509,
      "loss": 0.5306,
      "step": 55000
    },
    {
      "epoch": 2.7321942982020464,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005814284295222013,
      "loss": 0.5647,
      "step": 55010
    },
    {
      "epoch": 2.7326909704976656,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005813886957385517,
      "loss": 0.5721,
      "step": 55020
    },
    {
      "epoch": 2.733187642793285,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005813489619549022,
      "loss": 0.5647,
      "step": 55030
    },
    {
      "epoch": 2.7336843150889045,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0005813092281712526,
      "loss": 0.5479,
      "step": 55040
    },
    {
      "epoch": 2.7341809873845238,
      "grad_norm": 0.2578125,
      "learning_rate": 0.000581269494387603,
      "loss": 0.5689,
      "step": 55050
    },
    {
      "epoch": 2.734677659680143,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005812297606039536,
      "loss": 0.535,
      "step": 55060
    },
    {
      "epoch": 2.735174331975762,
      "grad_norm": 0.140625,
      "learning_rate": 0.000581190026820304,
      "loss": 0.5574,
      "step": 55070
    },
    {
      "epoch": 2.735671004271382,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005811502930366544,
      "loss": 0.5488,
      "step": 55080
    },
    {
      "epoch": 2.736167676567001,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005811105592530049,
      "loss": 0.5373,
      "step": 55090
    },
    {
      "epoch": 2.7366643488626203,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005810708254693554,
      "loss": 0.5725,
      "step": 55100
    },
    {
      "epoch": 2.73716102115824,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0005810310916857059,
      "loss": 0.5674,
      "step": 55110
    },
    {
      "epoch": 2.7376576934538592,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005809913579020562,
      "loss": 0.5623,
      "step": 55120
    },
    {
      "epoch": 2.7381543657494785,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0005809516241184067,
      "loss": 0.5248,
      "step": 55130
    },
    {
      "epoch": 2.7386510380450977,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005809118903347572,
      "loss": 0.5304,
      "step": 55140
    },
    {
      "epoch": 2.7391477103407174,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0005808721565511075,
      "loss": 0.5724,
      "step": 55150
    },
    {
      "epoch": 2.7396443826363366,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005808324227674581,
      "loss": 0.5655,
      "step": 55160
    },
    {
      "epoch": 2.740141054931956,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005807926889838085,
      "loss": 0.5197,
      "step": 55170
    },
    {
      "epoch": 2.7406377272275755,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005807529552001589,
      "loss": 0.551,
      "step": 55180
    },
    {
      "epoch": 2.7411343995231947,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005807132214165094,
      "loss": 0.5737,
      "step": 55190
    },
    {
      "epoch": 2.741631071818814,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005806734876328598,
      "loss": 0.5701,
      "step": 55200
    },
    {
      "epoch": 2.742127744114433,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0005806337538492103,
      "loss": 0.5167,
      "step": 55210
    },
    {
      "epoch": 2.7426244164100524,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005805940200655608,
      "loss": 0.5687,
      "step": 55220
    },
    {
      "epoch": 2.743121088705672,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0005805542862819112,
      "loss": 0.5623,
      "step": 55230
    },
    {
      "epoch": 2.7436177610012913,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005805145524982616,
      "loss": 0.5348,
      "step": 55240
    },
    {
      "epoch": 2.744114433296911,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005804748187146121,
      "loss": 0.549,
      "step": 55250
    },
    {
      "epoch": 2.74461110559253,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005804350849309626,
      "loss": 0.5745,
      "step": 55260
    },
    {
      "epoch": 2.7451077778881494,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005803953511473131,
      "loss": 0.5593,
      "step": 55270
    },
    {
      "epoch": 2.7456044501837686,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005803556173636635,
      "loss": 0.5544,
      "step": 55280
    },
    {
      "epoch": 2.746101122479388,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0005803158835800139,
      "loss": 0.5419,
      "step": 55290
    },
    {
      "epoch": 2.7465977947750075,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0005802761497963645,
      "loss": 0.6107,
      "step": 55300
    },
    {
      "epoch": 2.7470944670706268,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005802364160127148,
      "loss": 0.5794,
      "step": 55310
    },
    {
      "epoch": 2.747591139366246,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005801966822290653,
      "loss": 0.5429,
      "step": 55320
    },
    {
      "epoch": 2.7480878116618657,
      "grad_norm": 0.125,
      "learning_rate": 0.0005801569484454158,
      "loss": 0.5616,
      "step": 55330
    },
    {
      "epoch": 2.748584483957485,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0005801172146617661,
      "loss": 0.5419,
      "step": 55340
    },
    {
      "epoch": 2.749081156253104,
      "grad_norm": 0.140625,
      "learning_rate": 0.0005800774808781166,
      "loss": 0.5558,
      "step": 55350
    },
    {
      "epoch": 2.7495778285487233,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005800377470944672,
      "loss": 0.5258,
      "step": 55360
    },
    {
      "epoch": 2.750074500844343,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005799980133108175,
      "loss": 0.5429,
      "step": 55370
    },
    {
      "epoch": 2.7505711731399622,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.000579958279527168,
      "loss": 0.5463,
      "step": 55380
    },
    {
      "epoch": 2.7510678454355815,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005799185457435184,
      "loss": 0.5475,
      "step": 55390
    },
    {
      "epoch": 2.751564517731201,
      "grad_norm": 0.130859375,
      "learning_rate": 0.000579878811959869,
      "loss": 0.5423,
      "step": 55400
    },
    {
      "epoch": 2.7520611900268204,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0005798390781762194,
      "loss": 0.5488,
      "step": 55410
    },
    {
      "epoch": 2.7525578623224396,
      "grad_norm": 0.171875,
      "learning_rate": 0.0005797993443925698,
      "loss": 0.5434,
      "step": 55420
    },
    {
      "epoch": 2.753054534618059,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005797596106089203,
      "loss": 0.5555,
      "step": 55430
    },
    {
      "epoch": 2.7535512069136785,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005797198768252707,
      "loss": 0.5677,
      "step": 55440
    },
    {
      "epoch": 2.7540478792092977,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005796801430416211,
      "loss": 0.5583,
      "step": 55450
    },
    {
      "epoch": 2.754544551504917,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005796404092579717,
      "loss": 0.5538,
      "step": 55460
    },
    {
      "epoch": 2.7550412238005366,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0005796006754743221,
      "loss": 0.5444,
      "step": 55470
    },
    {
      "epoch": 2.755537896096156,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005795609416906725,
      "loss": 0.5492,
      "step": 55480
    },
    {
      "epoch": 2.756034568391775,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.000579521207907023,
      "loss": 0.5969,
      "step": 55490
    },
    {
      "epoch": 2.7565312406873943,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0005794814741233733,
      "loss": 0.5599,
      "step": 55500
    },
    {
      "epoch": 2.757027912983014,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005794417403397239,
      "loss": 0.5281,
      "step": 55510
    },
    {
      "epoch": 2.757524585278633,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005794020065560744,
      "loss": 0.565,
      "step": 55520
    },
    {
      "epoch": 2.7580212575742524,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005793622727724247,
      "loss": 0.5562,
      "step": 55530
    },
    {
      "epoch": 2.758517929869872,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0005793225389887752,
      "loss": 0.5884,
      "step": 55540
    },
    {
      "epoch": 2.7590146021654913,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0005792828052051257,
      "loss": 0.5439,
      "step": 55550
    },
    {
      "epoch": 2.7595112744611106,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005792430714214762,
      "loss": 0.5555,
      "step": 55560
    },
    {
      "epoch": 2.76000794675673,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0005792033376378266,
      "loss": 0.5547,
      "step": 55570
    },
    {
      "epoch": 2.760504619052349,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.000579163603854177,
      "loss": 0.5592,
      "step": 55580
    },
    {
      "epoch": 2.7610012913479687,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005791238700705275,
      "loss": 0.5555,
      "step": 55590
    },
    {
      "epoch": 2.761497963643588,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005790841362868779,
      "loss": 0.5415,
      "step": 55600
    },
    {
      "epoch": 2.7619946359392076,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005790444025032284,
      "loss": 0.5891,
      "step": 55610
    },
    {
      "epoch": 2.762491308234827,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005790046687195789,
      "loss": 0.5656,
      "step": 55620
    },
    {
      "epoch": 2.762987980530446,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005789649349359293,
      "loss": 0.5647,
      "step": 55630
    },
    {
      "epoch": 2.7634846528260653,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0005789252011522797,
      "loss": 0.5689,
      "step": 55640
    },
    {
      "epoch": 2.7639813251216845,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005788854673686302,
      "loss": 0.5426,
      "step": 55650
    },
    {
      "epoch": 2.764477997417304,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0005788457335849807,
      "loss": 0.5417,
      "step": 55660
    },
    {
      "epoch": 2.7649746697129234,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0005788059998013311,
      "loss": 0.5529,
      "step": 55670
    },
    {
      "epoch": 2.7654713420085426,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005787662660176816,
      "loss": 0.5507,
      "step": 55680
    },
    {
      "epoch": 2.7659680143041623,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.000578726532234032,
      "loss": 0.5881,
      "step": 55690
    },
    {
      "epoch": 2.7664646865997815,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005786867984503824,
      "loss": 0.5548,
      "step": 55700
    },
    {
      "epoch": 2.7669613588954007,
      "grad_norm": 0.21484375,
      "learning_rate": 0.000578647064666733,
      "loss": 0.5443,
      "step": 55710
    },
    {
      "epoch": 2.76745803119102,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005786073308830834,
      "loss": 0.5477,
      "step": 55720
    },
    {
      "epoch": 2.7679547034866396,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005785675970994338,
      "loss": 0.5643,
      "step": 55730
    },
    {
      "epoch": 2.768451375782259,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0005785278633157843,
      "loss": 0.5501,
      "step": 55740
    },
    {
      "epoch": 2.768948048077878,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005784881295321347,
      "loss": 0.5595,
      "step": 55750
    },
    {
      "epoch": 2.7694447203734978,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005784483957484852,
      "loss": 0.5723,
      "step": 55760
    },
    {
      "epoch": 2.769941392669117,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005784086619648356,
      "loss": 0.5765,
      "step": 55770
    },
    {
      "epoch": 2.770438064964736,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005783689281811861,
      "loss": 0.5515,
      "step": 55780
    },
    {
      "epoch": 2.7709347372603554,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005783291943975365,
      "loss": 0.5348,
      "step": 55790
    },
    {
      "epoch": 2.771431409555975,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005782894606138869,
      "loss": 0.5507,
      "step": 55800
    },
    {
      "epoch": 2.7719280818515943,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005782497268302375,
      "loss": 0.5576,
      "step": 55810
    },
    {
      "epoch": 2.7724247541472136,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005782099930465879,
      "loss": 0.5549,
      "step": 55820
    },
    {
      "epoch": 2.7729214264428332,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005781702592629383,
      "loss": 0.5687,
      "step": 55830
    },
    {
      "epoch": 2.7734180987384525,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0005781305254792888,
      "loss": 0.5809,
      "step": 55840
    },
    {
      "epoch": 2.7739147710340717,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0005780907916956392,
      "loss": 0.5701,
      "step": 55850
    },
    {
      "epoch": 2.774411443329691,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0005780510579119897,
      "loss": 0.568,
      "step": 55860
    },
    {
      "epoch": 2.77490811562531,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0005780113241283402,
      "loss": 0.5715,
      "step": 55870
    },
    {
      "epoch": 2.77540478792093,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005779715903446906,
      "loss": 0.5823,
      "step": 55880
    },
    {
      "epoch": 2.775901460216549,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.000577931856561041,
      "loss": 0.5197,
      "step": 55890
    },
    {
      "epoch": 2.7763981325121687,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005778921227773915,
      "loss": 0.6089,
      "step": 55900
    },
    {
      "epoch": 2.776894804807788,
      "grad_norm": 0.087890625,
      "learning_rate": 0.000577852388993742,
      "loss": 0.5394,
      "step": 55910
    },
    {
      "epoch": 2.777391477103407,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005778126552100924,
      "loss": 0.5576,
      "step": 55920
    },
    {
      "epoch": 2.7778881493990264,
      "grad_norm": 0.08642578125,
      "learning_rate": 0.0005777729214264429,
      "loss": 0.5577,
      "step": 55930
    },
    {
      "epoch": 2.7783848216946456,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005777331876427933,
      "loss": 0.5627,
      "step": 55940
    },
    {
      "epoch": 2.7788814939902653,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005776934538591437,
      "loss": 0.5685,
      "step": 55950
    },
    {
      "epoch": 2.7793781662858845,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005776537200754943,
      "loss": 0.5755,
      "step": 55960
    },
    {
      "epoch": 2.779874838581504,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005776139862918447,
      "loss": 0.5418,
      "step": 55970
    },
    {
      "epoch": 2.7803715108771234,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005775742525081951,
      "loss": 0.5429,
      "step": 55980
    },
    {
      "epoch": 2.7808681831727426,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0005775345187245455,
      "loss": 0.5879,
      "step": 55990
    },
    {
      "epoch": 2.781364855468362,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.000577494784940896,
      "loss": 0.5522,
      "step": 56000
    },
    {
      "epoch": 2.781861527763981,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005774550511572466,
      "loss": 0.5791,
      "step": 56010
    },
    {
      "epoch": 2.7823582000596008,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005774153173735969,
      "loss": 0.5753,
      "step": 56020
    },
    {
      "epoch": 2.78285487235522,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0005773755835899474,
      "loss": 0.5485,
      "step": 56030
    },
    {
      "epoch": 2.7833515446508392,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005773358498062978,
      "loss": 0.5378,
      "step": 56040
    },
    {
      "epoch": 2.783848216946459,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005772961160226482,
      "loss": 0.5962,
      "step": 56050
    },
    {
      "epoch": 2.784344889242078,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005772563822389988,
      "loss": 0.5633,
      "step": 56060
    },
    {
      "epoch": 2.7848415615376974,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0005772166484553492,
      "loss": 0.5915,
      "step": 56070
    },
    {
      "epoch": 2.7853382338333166,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005771769146716996,
      "loss": 0.565,
      "step": 56080
    },
    {
      "epoch": 2.7858349061289363,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005771371808880501,
      "loss": 0.544,
      "step": 56090
    },
    {
      "epoch": 2.7863315784245555,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005770974471044005,
      "loss": 0.5503,
      "step": 56100
    },
    {
      "epoch": 2.7868282507201747,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.000577057713320751,
      "loss": 0.5926,
      "step": 56110
    },
    {
      "epoch": 2.7873249230157944,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005770179795371015,
      "loss": 0.5907,
      "step": 56120
    },
    {
      "epoch": 2.7878215953114136,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005769782457534519,
      "loss": 0.542,
      "step": 56130
    },
    {
      "epoch": 2.788318267607033,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0005769385119698023,
      "loss": 0.5577,
      "step": 56140
    },
    {
      "epoch": 2.788814939902652,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005768987781861528,
      "loss": 0.5581,
      "step": 56150
    },
    {
      "epoch": 2.7893116121982717,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0005768590444025033,
      "loss": 0.5403,
      "step": 56160
    },
    {
      "epoch": 2.789808284493891,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005768193106188538,
      "loss": 0.5795,
      "step": 56170
    },
    {
      "epoch": 2.79030495678951,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005767795768352041,
      "loss": 0.529,
      "step": 56180
    },
    {
      "epoch": 2.79080162908513,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005767398430515546,
      "loss": 0.5354,
      "step": 56190
    },
    {
      "epoch": 2.791298301380749,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005767001092679051,
      "loss": 0.5647,
      "step": 56200
    },
    {
      "epoch": 2.7917949736763683,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005766603754842554,
      "loss": 0.5636,
      "step": 56210
    },
    {
      "epoch": 2.7922916459719875,
      "grad_norm": 0.08544921875,
      "learning_rate": 0.000576620641700606,
      "loss": 0.5823,
      "step": 56220
    },
    {
      "epoch": 2.7927883182676068,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0005765809079169565,
      "loss": 0.5592,
      "step": 56230
    },
    {
      "epoch": 2.7932849905632264,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005765411741333068,
      "loss": 0.5779,
      "step": 56240
    },
    {
      "epoch": 2.7937816628588457,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0005765014403496573,
      "loss": 0.5916,
      "step": 56250
    },
    {
      "epoch": 2.7942783351544653,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0005764617065660078,
      "loss": 0.567,
      "step": 56260
    },
    {
      "epoch": 2.7947750074500846,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005764219727823582,
      "loss": 0.5717,
      "step": 56270
    },
    {
      "epoch": 2.795271679745704,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005763822389987087,
      "loss": 0.5514,
      "step": 56280
    },
    {
      "epoch": 2.795768352041323,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005763425052150591,
      "loss": 0.5704,
      "step": 56290
    },
    {
      "epoch": 2.7962650243369422,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0005763027714314096,
      "loss": 0.5569,
      "step": 56300
    },
    {
      "epoch": 2.796761696632562,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.00057626303764776,
      "loss": 0.5818,
      "step": 56310
    },
    {
      "epoch": 2.797258368928181,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005762233038641105,
      "loss": 0.5351,
      "step": 56320
    },
    {
      "epoch": 2.797755041223801,
      "grad_norm": 0.126953125,
      "learning_rate": 0.000576183570080461,
      "loss": 0.5564,
      "step": 56330
    },
    {
      "epoch": 2.79825171351942,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0005761438362968114,
      "loss": 0.577,
      "step": 56340
    },
    {
      "epoch": 2.7987483858150393,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005761041025131618,
      "loss": 0.5136,
      "step": 56350
    },
    {
      "epoch": 2.7992450581106585,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005760643687295124,
      "loss": 0.5576,
      "step": 56360
    },
    {
      "epoch": 2.7997417304062777,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005760246349458627,
      "loss": 0.5479,
      "step": 56370
    },
    {
      "epoch": 2.8002384027018974,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0005759849011622132,
      "loss": 0.5534,
      "step": 56380
    },
    {
      "epoch": 2.8007350749975166,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005759451673785637,
      "loss": 0.5432,
      "step": 56390
    },
    {
      "epoch": 2.801231747293136,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.000575905433594914,
      "loss": 0.5506,
      "step": 56400
    },
    {
      "epoch": 2.8017284195887555,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005758656998112646,
      "loss": 0.5494,
      "step": 56410
    },
    {
      "epoch": 2.8022250918843747,
      "grad_norm": 0.15625,
      "learning_rate": 0.0005758259660276151,
      "loss": 0.5985,
      "step": 56420
    },
    {
      "epoch": 2.802721764179994,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005757862322439654,
      "loss": 0.5345,
      "step": 56430
    },
    {
      "epoch": 2.803218436475613,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005757464984603159,
      "loss": 0.5927,
      "step": 56440
    },
    {
      "epoch": 2.803715108771233,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005757067646766663,
      "loss": 0.5388,
      "step": 56450
    },
    {
      "epoch": 2.804211781066852,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005756670308930169,
      "loss": 0.5468,
      "step": 56460
    },
    {
      "epoch": 2.8047084533624713,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005756272971093673,
      "loss": 0.592,
      "step": 56470
    },
    {
      "epoch": 2.805205125658091,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005755875633257177,
      "loss": 0.5579,
      "step": 56480
    },
    {
      "epoch": 2.80570179795371,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0005755478295420682,
      "loss": 0.556,
      "step": 56490
    },
    {
      "epoch": 2.8061984702493294,
      "grad_norm": 0.08642578125,
      "learning_rate": 0.0005755080957584186,
      "loss": 0.5605,
      "step": 56500
    },
    {
      "epoch": 2.8066951425449487,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.000575468361974769,
      "loss": 0.5704,
      "step": 56510
    },
    {
      "epoch": 2.8071918148405683,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005754286281911196,
      "loss": 0.538,
      "step": 56520
    },
    {
      "epoch": 2.8076884871361876,
      "grad_norm": 0.16015625,
      "learning_rate": 0.00057538889440747,
      "loss": 0.5666,
      "step": 56530
    },
    {
      "epoch": 2.808185159431807,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0005753491606238204,
      "loss": 0.579,
      "step": 56540
    },
    {
      "epoch": 2.8086818317274265,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005753094268401709,
      "loss": 0.5407,
      "step": 56550
    },
    {
      "epoch": 2.8091785040230457,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005752696930565213,
      "loss": 0.55,
      "step": 56560
    },
    {
      "epoch": 2.809675176318665,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005752299592728718,
      "loss": 0.5505,
      "step": 56570
    },
    {
      "epoch": 2.810171848614284,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005751902254892223,
      "loss": 0.5341,
      "step": 56580
    },
    {
      "epoch": 2.8106685209099034,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005751504917055726,
      "loss": 0.5854,
      "step": 56590
    },
    {
      "epoch": 2.811165193205523,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005751107579219231,
      "loss": 0.6014,
      "step": 56600
    },
    {
      "epoch": 2.8116618655011423,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005750710241382737,
      "loss": 0.5923,
      "step": 56610
    },
    {
      "epoch": 2.812158537796762,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005750312903546241,
      "loss": 0.5599,
      "step": 56620
    },
    {
      "epoch": 2.812655210092381,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005749915565709745,
      "loss": 0.5852,
      "step": 56630
    },
    {
      "epoch": 2.8131518823880004,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0005749518227873249,
      "loss": 0.5262,
      "step": 56640
    },
    {
      "epoch": 2.8136485546836196,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005749120890036754,
      "loss": 0.5398,
      "step": 56650
    },
    {
      "epoch": 2.814145226979239,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005748723552200258,
      "loss": 0.5394,
      "step": 56660
    },
    {
      "epoch": 2.8146418992748585,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005748326214363763,
      "loss": 0.5383,
      "step": 56670
    },
    {
      "epoch": 2.8151385715704778,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005747928876527268,
      "loss": 0.5352,
      "step": 56680
    },
    {
      "epoch": 2.8156352438660974,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0005747531538690772,
      "loss": 0.5325,
      "step": 56690
    },
    {
      "epoch": 2.8161319161617167,
      "grad_norm": 0.1875,
      "learning_rate": 0.0005747134200854276,
      "loss": 0.5311,
      "step": 56700
    },
    {
      "epoch": 2.816628588457336,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0005746736863017781,
      "loss": 0.5797,
      "step": 56710
    },
    {
      "epoch": 2.817125260752955,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005746339525181286,
      "loss": 0.5722,
      "step": 56720
    },
    {
      "epoch": 2.8176219330485743,
      "grad_norm": 0.130859375,
      "learning_rate": 0.000574594218734479,
      "loss": 0.5606,
      "step": 56730
    },
    {
      "epoch": 2.818118605344194,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005745544849508295,
      "loss": 0.5685,
      "step": 56740
    },
    {
      "epoch": 2.8186152776398132,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0005745147511671799,
      "loss": 0.5442,
      "step": 56750
    },
    {
      "epoch": 2.8191119499354325,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005744750173835303,
      "loss": 0.5349,
      "step": 56760
    },
    {
      "epoch": 2.819608622231052,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005744352835998809,
      "loss": 0.5479,
      "step": 56770
    },
    {
      "epoch": 2.8201052945266714,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005743955498162313,
      "loss": 0.5517,
      "step": 56780
    },
    {
      "epoch": 2.8206019668222906,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005743558160325817,
      "loss": 0.5598,
      "step": 56790
    },
    {
      "epoch": 2.82109863911791,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0005743160822489322,
      "loss": 0.546,
      "step": 56800
    },
    {
      "epoch": 2.8215953114135295,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0005742763484652826,
      "loss": 0.5627,
      "step": 56810
    },
    {
      "epoch": 2.8220919837091487,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005742366146816331,
      "loss": 0.5589,
      "step": 56820
    },
    {
      "epoch": 2.822588656004768,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0005741968808979836,
      "loss": 0.5491,
      "step": 56830
    },
    {
      "epoch": 2.8230853283003876,
      "grad_norm": 0.09765625,
      "learning_rate": 0.000574157147114334,
      "loss": 0.5563,
      "step": 56840
    },
    {
      "epoch": 2.823582000596007,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005741174133306844,
      "loss": 0.5788,
      "step": 56850
    },
    {
      "epoch": 2.824078672891626,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005740776795470348,
      "loss": 0.5798,
      "step": 56860
    },
    {
      "epoch": 2.8245753451872453,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005740379457633854,
      "loss": 0.5597,
      "step": 56870
    },
    {
      "epoch": 2.825072017482865,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005739982119797358,
      "loss": 0.5476,
      "step": 56880
    },
    {
      "epoch": 2.825568689778484,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005739584781960862,
      "loss": 0.5343,
      "step": 56890
    },
    {
      "epoch": 2.8260653620741034,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005739187444124367,
      "loss": 0.5601,
      "step": 56900
    },
    {
      "epoch": 2.826562034369723,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005738790106287871,
      "loss": 0.5578,
      "step": 56910
    },
    {
      "epoch": 2.8270587066653423,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005738392768451376,
      "loss": 0.5794,
      "step": 56920
    },
    {
      "epoch": 2.8275553789609615,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0005737995430614881,
      "loss": 0.5499,
      "step": 56930
    },
    {
      "epoch": 2.8280520512565808,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0005737598092778385,
      "loss": 0.5601,
      "step": 56940
    },
    {
      "epoch": 2.8285487235522,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005737200754941889,
      "loss": 0.5375,
      "step": 56950
    },
    {
      "epoch": 2.8290453958478197,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005736803417105394,
      "loss": 0.5793,
      "step": 56960
    },
    {
      "epoch": 2.829542068143439,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0005736406079268899,
      "loss": 0.5278,
      "step": 56970
    },
    {
      "epoch": 2.8300387404390586,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005736008741432403,
      "loss": 0.5501,
      "step": 56980
    },
    {
      "epoch": 2.830535412734678,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005735611403595908,
      "loss": 0.5422,
      "step": 56990
    },
    {
      "epoch": 2.831032085030297,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0005735214065759412,
      "loss": 0.5629,
      "step": 57000
    },
    {
      "epoch": 2.8315287573259162,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005734816727922916,
      "loss": 0.5634,
      "step": 57010
    },
    {
      "epoch": 2.8320254296215355,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005734419390086422,
      "loss": 0.5477,
      "step": 57020
    },
    {
      "epoch": 2.832522101917155,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005734022052249926,
      "loss": 0.5744,
      "step": 57030
    },
    {
      "epoch": 2.8330187742127744,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.000573362471441343,
      "loss": 0.5712,
      "step": 57040
    },
    {
      "epoch": 2.8335154465083936,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005733227376576934,
      "loss": 0.513,
      "step": 57050
    },
    {
      "epoch": 2.8340121188040133,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005732830038740439,
      "loss": 0.5702,
      "step": 57060
    },
    {
      "epoch": 2.8345087910996325,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005732432700903945,
      "loss": 0.5636,
      "step": 57070
    },
    {
      "epoch": 2.8350054633952517,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.0005732035363067448,
      "loss": 0.5351,
      "step": 57080
    },
    {
      "epoch": 2.835502135690871,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0005731638025230953,
      "loss": 0.5575,
      "step": 57090
    },
    {
      "epoch": 2.8359988079864906,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005731240687394458,
      "loss": 0.5511,
      "step": 57100
    },
    {
      "epoch": 2.83649548028211,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005730843349557961,
      "loss": 0.564,
      "step": 57110
    },
    {
      "epoch": 2.836992152577729,
      "grad_norm": 0.08447265625,
      "learning_rate": 0.0005730446011721467,
      "loss": 0.5408,
      "step": 57120
    },
    {
      "epoch": 2.8374888248733487,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005730048673884971,
      "loss": 0.5589,
      "step": 57130
    },
    {
      "epoch": 2.837985497168968,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005729651336048475,
      "loss": 0.5682,
      "step": 57140
    },
    {
      "epoch": 2.838482169464587,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.000572925399821198,
      "loss": 0.5336,
      "step": 57150
    },
    {
      "epoch": 2.8389788417602064,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005728856660375484,
      "loss": 0.5409,
      "step": 57160
    },
    {
      "epoch": 2.839475514055826,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005728459322538989,
      "loss": 0.5335,
      "step": 57170
    },
    {
      "epoch": 2.8399721863514453,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005728061984702494,
      "loss": 0.5436,
      "step": 57180
    },
    {
      "epoch": 2.8404688586470646,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005727664646865998,
      "loss": 0.5297,
      "step": 57190
    },
    {
      "epoch": 2.8409655309426842,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0005727267309029503,
      "loss": 0.5597,
      "step": 57200
    },
    {
      "epoch": 2.8414622032383035,
      "grad_norm": 0.08740234375,
      "learning_rate": 0.0005726869971193007,
      "loss": 0.5425,
      "step": 57210
    },
    {
      "epoch": 2.8419588755339227,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005726472633356512,
      "loss": 0.5408,
      "step": 57220
    },
    {
      "epoch": 2.842455547829542,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005726075295520017,
      "loss": 0.5352,
      "step": 57230
    },
    {
      "epoch": 2.8429522201251616,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000572567795768352,
      "loss": 0.574,
      "step": 57240
    },
    {
      "epoch": 2.843448892420781,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005725280619847025,
      "loss": 0.5742,
      "step": 57250
    },
    {
      "epoch": 2.8439455647164,
      "grad_norm": 0.1484375,
      "learning_rate": 0.000572488328201053,
      "loss": 0.5515,
      "step": 57260
    },
    {
      "epoch": 2.8444422370120197,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005724485944174034,
      "loss": 0.593,
      "step": 57270
    },
    {
      "epoch": 2.844938909307639,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005724088606337539,
      "loss": 0.528,
      "step": 57280
    },
    {
      "epoch": 2.845435581603258,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0005723691268501044,
      "loss": 0.551,
      "step": 57290
    },
    {
      "epoch": 2.8459322538988774,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005723293930664547,
      "loss": 0.5678,
      "step": 57300
    },
    {
      "epoch": 2.8464289261944966,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005722896592828052,
      "loss": 0.5736,
      "step": 57310
    },
    {
      "epoch": 2.8469255984901163,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0005722499254991557,
      "loss": 0.5452,
      "step": 57320
    },
    {
      "epoch": 2.8474222707857355,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005722101917155061,
      "loss": 0.5354,
      "step": 57330
    },
    {
      "epoch": 2.847918943081355,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0005721704579318566,
      "loss": 0.5659,
      "step": 57340
    },
    {
      "epoch": 2.8484156153769744,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.000572130724148207,
      "loss": 0.532,
      "step": 57350
    },
    {
      "epoch": 2.8489122876725936,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005720909903645575,
      "loss": 0.5466,
      "step": 57360
    },
    {
      "epoch": 2.849408959968213,
      "grad_norm": 0.154296875,
      "learning_rate": 0.000572051256580908,
      "loss": 0.5825,
      "step": 57370
    },
    {
      "epoch": 2.849905632263832,
      "grad_norm": 0.171875,
      "learning_rate": 0.0005720115227972584,
      "loss": 0.5741,
      "step": 57380
    },
    {
      "epoch": 2.8504023045594518,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005719717890136089,
      "loss": 0.5571,
      "step": 57390
    },
    {
      "epoch": 2.850898976855071,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005719320552299593,
      "loss": 0.5709,
      "step": 57400
    },
    {
      "epoch": 2.85139564915069,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005718923214463097,
      "loss": 0.569,
      "step": 57410
    },
    {
      "epoch": 2.85189232144631,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005718525876626603,
      "loss": 0.5289,
      "step": 57420
    },
    {
      "epoch": 2.852388993741929,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005718128538790107,
      "loss": 0.5553,
      "step": 57430
    },
    {
      "epoch": 2.8528856660375483,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005717731200953611,
      "loss": 0.539,
      "step": 57440
    },
    {
      "epoch": 2.8533823383331676,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005717333863117116,
      "loss": 0.5497,
      "step": 57450
    },
    {
      "epoch": 2.8538790106287872,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0005716936525280619,
      "loss": 0.5593,
      "step": 57460
    },
    {
      "epoch": 2.8543756829244065,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005716539187444125,
      "loss": 0.5529,
      "step": 57470
    },
    {
      "epoch": 2.8548723552200257,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.000571614184960763,
      "loss": 0.557,
      "step": 57480
    },
    {
      "epoch": 2.8553690275156454,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005715744511771133,
      "loss": 0.5768,
      "step": 57490
    },
    {
      "epoch": 2.8558656998112646,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005715347173934638,
      "loss": 0.5636,
      "step": 57500
    },
    {
      "epoch": 2.856362372106884,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005714949836098142,
      "loss": 0.5743,
      "step": 57510
    },
    {
      "epoch": 2.856859044402503,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005714552498261648,
      "loss": 0.559,
      "step": 57520
    },
    {
      "epoch": 2.8573557166981227,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005714155160425152,
      "loss": 0.5599,
      "step": 57530
    },
    {
      "epoch": 2.857852388993742,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005713757822588656,
      "loss": 0.5598,
      "step": 57540
    },
    {
      "epoch": 2.858349061289361,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005713360484752161,
      "loss": 0.5347,
      "step": 57550
    },
    {
      "epoch": 2.858845733584981,
      "grad_norm": 0.08447265625,
      "learning_rate": 0.0005712963146915665,
      "loss": 0.5707,
      "step": 57560
    },
    {
      "epoch": 2.8593424058806,
      "grad_norm": 0.115234375,
      "learning_rate": 0.000571256580907917,
      "loss": 0.528,
      "step": 57570
    },
    {
      "epoch": 2.8598390781762193,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005712168471242675,
      "loss": 0.5671,
      "step": 57580
    },
    {
      "epoch": 2.8603357504718385,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005711771133406179,
      "loss": 0.5585,
      "step": 57590
    },
    {
      "epoch": 2.860832422767458,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005711373795569683,
      "loss": 0.5669,
      "step": 57600
    },
    {
      "epoch": 2.8613290950630774,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005710976457733188,
      "loss": 0.579,
      "step": 57610
    },
    {
      "epoch": 2.8618257673586966,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005710579119896693,
      "loss": 0.5508,
      "step": 57620
    },
    {
      "epoch": 2.8623224396543163,
      "grad_norm": 0.08740234375,
      "learning_rate": 0.0005710181782060197,
      "loss": 0.5277,
      "step": 57630
    },
    {
      "epoch": 2.8628191119499355,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0005709784444223702,
      "loss": 0.5405,
      "step": 57640
    },
    {
      "epoch": 2.8633157842455548,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005709387106387206,
      "loss": 0.5483,
      "step": 57650
    },
    {
      "epoch": 2.863812456541174,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.000570898976855071,
      "loss": 0.5332,
      "step": 57660
    },
    {
      "epoch": 2.8643091288367932,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005708592430714216,
      "loss": 0.5571,
      "step": 57670
    },
    {
      "epoch": 2.864805801132413,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.000570819509287772,
      "loss": 0.5255,
      "step": 57680
    },
    {
      "epoch": 2.865302473428032,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0005707797755041224,
      "loss": 0.5287,
      "step": 57690
    },
    {
      "epoch": 2.865799145723652,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005707400417204729,
      "loss": 0.5412,
      "step": 57700
    },
    {
      "epoch": 2.866295818019271,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0005707003079368233,
      "loss": 0.5548,
      "step": 57710
    },
    {
      "epoch": 2.8667924903148903,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005706605741531738,
      "loss": 0.5363,
      "step": 57720
    },
    {
      "epoch": 2.8672891626105095,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005706208403695242,
      "loss": 0.5702,
      "step": 57730
    },
    {
      "epoch": 2.8677858349061287,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0005705811065858747,
      "loss": 0.5496,
      "step": 57740
    },
    {
      "epoch": 2.8682825072017484,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005705413728022251,
      "loss": 0.5126,
      "step": 57750
    },
    {
      "epoch": 2.8687791794973676,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0005705016390185755,
      "loss": 0.5608,
      "step": 57760
    },
    {
      "epoch": 2.869275851792987,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.000570461905234926,
      "loss": 0.5755,
      "step": 57770
    },
    {
      "epoch": 2.8697725240886065,
      "grad_norm": 0.140625,
      "learning_rate": 0.0005704221714512765,
      "loss": 0.5264,
      "step": 57780
    },
    {
      "epoch": 2.8702691963842257,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0005703824376676269,
      "loss": 0.5669,
      "step": 57790
    },
    {
      "epoch": 2.870765868679845,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005703427038839774,
      "loss": 0.564,
      "step": 57800
    },
    {
      "epoch": 2.871262540975464,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0005703029701003278,
      "loss": 0.5497,
      "step": 57810
    },
    {
      "epoch": 2.871759213271084,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005702632363166782,
      "loss": 0.5965,
      "step": 57820
    },
    {
      "epoch": 2.872255885566703,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005702235025330288,
      "loss": 0.5384,
      "step": 57830
    },
    {
      "epoch": 2.8727525578623223,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0005701837687493792,
      "loss": 0.5137,
      "step": 57840
    },
    {
      "epoch": 2.873249230157942,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0005701440349657296,
      "loss": 0.562,
      "step": 57850
    },
    {
      "epoch": 2.873745902453561,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005701043011820801,
      "loss": 0.5425,
      "step": 57860
    },
    {
      "epoch": 2.8742425747491804,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005700645673984305,
      "loss": 0.5806,
      "step": 57870
    },
    {
      "epoch": 2.8747392470447997,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.000570024833614781,
      "loss": 0.5594,
      "step": 57880
    },
    {
      "epoch": 2.8752359193404193,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005699850998311315,
      "loss": 0.5513,
      "step": 57890
    },
    {
      "epoch": 2.8757325916360386,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005699453660474819,
      "loss": 0.5623,
      "step": 57900
    },
    {
      "epoch": 2.876229263931658,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0005699056322638323,
      "loss": 0.5909,
      "step": 57910
    },
    {
      "epoch": 2.8767259362272775,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005698658984801827,
      "loss": 0.5394,
      "step": 57920
    },
    {
      "epoch": 2.8772226085228967,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005698261646965333,
      "loss": 0.556,
      "step": 57930
    },
    {
      "epoch": 2.877719280818516,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005697864309128838,
      "loss": 0.576,
      "step": 57940
    },
    {
      "epoch": 2.878215953114135,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005697466971292341,
      "loss": 0.555,
      "step": 57950
    },
    {
      "epoch": 2.8787126254097544,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005697069633455846,
      "loss": 0.5515,
      "step": 57960
    },
    {
      "epoch": 2.879209297705374,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005696672295619352,
      "loss": 0.568,
      "step": 57970
    },
    {
      "epoch": 2.8797059700009933,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005696274957782855,
      "loss": 0.5729,
      "step": 57980
    },
    {
      "epoch": 2.880202642296613,
      "grad_norm": 0.158203125,
      "learning_rate": 0.000569587761994636,
      "loss": 0.5552,
      "step": 57990
    },
    {
      "epoch": 2.880699314592232,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005695480282109864,
      "loss": 0.5485,
      "step": 58000
    },
    {
      "epoch": 2.8811959868878514,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0005695082944273368,
      "loss": 0.545,
      "step": 58010
    },
    {
      "epoch": 2.8816926591834706,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0005694685606436873,
      "loss": 0.5598,
      "step": 58020
    },
    {
      "epoch": 2.88218933147909,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005694288268600378,
      "loss": 0.5485,
      "step": 58030
    },
    {
      "epoch": 2.8826860037747095,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005693890930763882,
      "loss": 0.5435,
      "step": 58040
    },
    {
      "epoch": 2.8831826760703287,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005693493592927387,
      "loss": 0.5659,
      "step": 58050
    },
    {
      "epoch": 2.8836793483659484,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005693096255090891,
      "loss": 0.5266,
      "step": 58060
    },
    {
      "epoch": 2.8841760206615676,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0005692698917254395,
      "loss": 0.5522,
      "step": 58070
    },
    {
      "epoch": 2.884672692957187,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005692301579417901,
      "loss": 0.5434,
      "step": 58080
    },
    {
      "epoch": 2.885169365252806,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005691904241581405,
      "loss": 0.5619,
      "step": 58090
    },
    {
      "epoch": 2.8856660375484253,
      "grad_norm": 0.099609375,
      "learning_rate": 0.000569150690374491,
      "loss": 0.569,
      "step": 58100
    },
    {
      "epoch": 2.886162709844045,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005691109565908413,
      "loss": 0.5799,
      "step": 58110
    },
    {
      "epoch": 2.886659382139664,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005690712228071918,
      "loss": 0.572,
      "step": 58120
    },
    {
      "epoch": 2.8871560544352834,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005690314890235424,
      "loss": 0.5379,
      "step": 58130
    },
    {
      "epoch": 2.887652726730903,
      "grad_norm": 0.15625,
      "learning_rate": 0.0005689917552398927,
      "loss": 0.5252,
      "step": 58140
    },
    {
      "epoch": 2.8881493990265223,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005689520214562432,
      "loss": 0.5574,
      "step": 58150
    },
    {
      "epoch": 2.8886460713221416,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005689122876725937,
      "loss": 0.551,
      "step": 58160
    },
    {
      "epoch": 2.889142743617761,
      "grad_norm": 0.1171875,
      "learning_rate": 0.000568872553888944,
      "loss": 0.5691,
      "step": 58170
    },
    {
      "epoch": 2.8896394159133805,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005688328201052946,
      "loss": 0.5442,
      "step": 58180
    },
    {
      "epoch": 2.8901360882089997,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.000568793086321645,
      "loss": 0.5618,
      "step": 58190
    },
    {
      "epoch": 2.890632760504619,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005687533525379954,
      "loss": 0.5685,
      "step": 58200
    },
    {
      "epoch": 2.8911294328002386,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005687136187543459,
      "loss": 0.5804,
      "step": 58210
    },
    {
      "epoch": 2.891626105095858,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005686738849706963,
      "loss": 0.5615,
      "step": 58220
    },
    {
      "epoch": 2.892122777391477,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.0005686341511870468,
      "loss": 0.5725,
      "step": 58230
    },
    {
      "epoch": 2.8926194496870963,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0005685944174033973,
      "loss": 0.5545,
      "step": 58240
    },
    {
      "epoch": 2.893116121982716,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005685546836197477,
      "loss": 0.5463,
      "step": 58250
    },
    {
      "epoch": 2.893612794278335,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0005685149498360982,
      "loss": 0.5872,
      "step": 58260
    },
    {
      "epoch": 2.8941094665739544,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005684752160524486,
      "loss": 0.5727,
      "step": 58270
    },
    {
      "epoch": 2.894606138869574,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005684354822687991,
      "loss": 0.5308,
      "step": 58280
    },
    {
      "epoch": 2.8951028111651933,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005683957484851496,
      "loss": 0.5595,
      "step": 58290
    },
    {
      "epoch": 2.8955994834608125,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005683560147015,
      "loss": 0.5706,
      "step": 58300
    },
    {
      "epoch": 2.8960961557564318,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005683162809178504,
      "loss": 0.5375,
      "step": 58310
    },
    {
      "epoch": 2.896592828052051,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.000568276547134201,
      "loss": 0.543,
      "step": 58320
    },
    {
      "epoch": 2.8970895003476707,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005682368133505513,
      "loss": 0.5418,
      "step": 58330
    },
    {
      "epoch": 2.89758617264329,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0005681970795669018,
      "loss": 0.5714,
      "step": 58340
    },
    {
      "epoch": 2.8980828449389096,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005681573457832523,
      "loss": 0.5453,
      "step": 58350
    },
    {
      "epoch": 2.898579517234529,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005681176119996026,
      "loss": 0.5533,
      "step": 58360
    },
    {
      "epoch": 2.899076189530148,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005680778782159531,
      "loss": 0.5524,
      "step": 58370
    },
    {
      "epoch": 2.8995728618257672,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005680381444323036,
      "loss": 0.5252,
      "step": 58380
    },
    {
      "epoch": 2.9000695341213865,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0005679984106486541,
      "loss": 0.5223,
      "step": 58390
    },
    {
      "epoch": 2.900566206417006,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005679586768650045,
      "loss": 0.553,
      "step": 58400
    },
    {
      "epoch": 2.9010628787126254,
      "grad_norm": 0.08837890625,
      "learning_rate": 0.0005679189430813549,
      "loss": 0.5507,
      "step": 58410
    },
    {
      "epoch": 2.901559551008245,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0005678792092977054,
      "loss": 0.5367,
      "step": 58420
    },
    {
      "epoch": 2.9020562233038643,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005678394755140559,
      "loss": 0.5669,
      "step": 58430
    },
    {
      "epoch": 2.9025528955994835,
      "grad_norm": 0.087890625,
      "learning_rate": 0.0005677997417304063,
      "loss": 0.5491,
      "step": 58440
    },
    {
      "epoch": 2.9030495678951027,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0005677600079467568,
      "loss": 0.5746,
      "step": 58450
    },
    {
      "epoch": 2.903546240190722,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005677202741631072,
      "loss": 0.5686,
      "step": 58460
    },
    {
      "epoch": 2.9040429124863416,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005676805403794576,
      "loss": 0.5631,
      "step": 58470
    },
    {
      "epoch": 2.904539584781961,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005676408065958082,
      "loss": 0.5275,
      "step": 58480
    },
    {
      "epoch": 2.90503625707758,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005676010728121586,
      "loss": 0.5573,
      "step": 58490
    },
    {
      "epoch": 2.9055329293731997,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000567561339028509,
      "loss": 0.5584,
      "step": 58500
    },
    {
      "epoch": 2.906029601668819,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005675216052448595,
      "loss": 0.5452,
      "step": 58510
    },
    {
      "epoch": 2.906526273964438,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005674818714612098,
      "loss": 0.5653,
      "step": 58520
    },
    {
      "epoch": 2.9070229462600574,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005674421376775604,
      "loss": 0.5529,
      "step": 58530
    },
    {
      "epoch": 2.907519618555677,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005674024038939109,
      "loss": 0.5543,
      "step": 58540
    },
    {
      "epoch": 2.9080162908512963,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005673626701102613,
      "loss": 0.5662,
      "step": 58550
    },
    {
      "epoch": 2.9085129631469155,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005673229363266117,
      "loss": 0.5571,
      "step": 58560
    },
    {
      "epoch": 2.909009635442535,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005672832025429621,
      "loss": 0.5496,
      "step": 58570
    },
    {
      "epoch": 2.9095063077381544,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005672434687593127,
      "loss": 0.5188,
      "step": 58580
    },
    {
      "epoch": 2.9100029800337737,
      "grad_norm": 0.087890625,
      "learning_rate": 0.0005672037349756631,
      "loss": 0.5523,
      "step": 58590
    },
    {
      "epoch": 2.910499652329393,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005671640011920135,
      "loss": 0.5485,
      "step": 58600
    },
    {
      "epoch": 2.9109963246250126,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.000567124267408364,
      "loss": 0.5503,
      "step": 58610
    },
    {
      "epoch": 2.911492996920632,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005670845336247144,
      "loss": 0.562,
      "step": 58620
    },
    {
      "epoch": 2.911989669216251,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005670447998410649,
      "loss": 0.5759,
      "step": 58630
    },
    {
      "epoch": 2.9124863415118707,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005670050660574154,
      "loss": 0.5494,
      "step": 58640
    },
    {
      "epoch": 2.91298301380749,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005669653322737658,
      "loss": 0.5299,
      "step": 58650
    },
    {
      "epoch": 2.913479686103109,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005669255984901162,
      "loss": 0.5516,
      "step": 58660
    },
    {
      "epoch": 2.9139763583987284,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005668858647064667,
      "loss": 0.5365,
      "step": 58670
    },
    {
      "epoch": 2.9144730306943476,
      "grad_norm": 0.125,
      "learning_rate": 0.0005668461309228172,
      "loss": 0.5389,
      "step": 58680
    },
    {
      "epoch": 2.9149697029899673,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005668063971391676,
      "loss": 0.5402,
      "step": 58690
    },
    {
      "epoch": 2.9154663752855865,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005667666633555181,
      "loss": 0.5457,
      "step": 58700
    },
    {
      "epoch": 2.915963047581206,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005667269295718685,
      "loss": 0.5668,
      "step": 58710
    },
    {
      "epoch": 2.9164597198768254,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0005666871957882189,
      "loss": 0.5632,
      "step": 58720
    },
    {
      "epoch": 2.9169563921724446,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0005666474620045695,
      "loss": 0.5504,
      "step": 58730
    },
    {
      "epoch": 2.917453064468064,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0005666077282209199,
      "loss": 0.5523,
      "step": 58740
    },
    {
      "epoch": 2.917949736763683,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0005665679944372703,
      "loss": 0.5607,
      "step": 58750
    },
    {
      "epoch": 2.9184464090593027,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005665282606536208,
      "loss": 0.5626,
      "step": 58760
    },
    {
      "epoch": 2.918943081354922,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005664885268699712,
      "loss": 0.5397,
      "step": 58770
    },
    {
      "epoch": 2.9194397536505416,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0005664487930863217,
      "loss": 0.5625,
      "step": 58780
    },
    {
      "epoch": 2.919936425946161,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005664090593026721,
      "loss": 0.5383,
      "step": 58790
    },
    {
      "epoch": 2.92043309824178,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005663693255190226,
      "loss": 0.5734,
      "step": 58800
    },
    {
      "epoch": 2.9209297705373993,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.000566329591735373,
      "loss": 0.5363,
      "step": 58810
    },
    {
      "epoch": 2.9214264428330186,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005662898579517234,
      "loss": 0.5437,
      "step": 58820
    },
    {
      "epoch": 2.9219231151286382,
      "grad_norm": 0.138671875,
      "learning_rate": 0.000566250124168074,
      "loss": 0.5454,
      "step": 58830
    },
    {
      "epoch": 2.9224197874242575,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005662103903844244,
      "loss": 0.5451,
      "step": 58840
    },
    {
      "epoch": 2.9229164597198767,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005661706566007748,
      "loss": 0.5632,
      "step": 58850
    },
    {
      "epoch": 2.9234131320154964,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0005661309228171253,
      "loss": 0.5585,
      "step": 58860
    },
    {
      "epoch": 2.9239098043111156,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005660911890334757,
      "loss": 0.557,
      "step": 58870
    },
    {
      "epoch": 2.924406476606735,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0005660514552498262,
      "loss": 0.5664,
      "step": 58880
    },
    {
      "epoch": 2.924903148902354,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005660117214661767,
      "loss": 0.5604,
      "step": 58890
    },
    {
      "epoch": 2.9253998211979737,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005659719876825271,
      "loss": 0.6002,
      "step": 58900
    },
    {
      "epoch": 2.925896493493593,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0005659322538988775,
      "loss": 0.5526,
      "step": 58910
    },
    {
      "epoch": 2.926393165789212,
      "grad_norm": 0.095703125,
      "learning_rate": 0.000565892520115228,
      "loss": 0.5556,
      "step": 58920
    },
    {
      "epoch": 2.926889838084832,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005658527863315785,
      "loss": 0.5418,
      "step": 58930
    },
    {
      "epoch": 2.927386510380451,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0005658130525479289,
      "loss": 0.5495,
      "step": 58940
    },
    {
      "epoch": 2.9278831826760703,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005657733187642794,
      "loss": 0.5517,
      "step": 58950
    },
    {
      "epoch": 2.9283798549716895,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0005657335849806298,
      "loss": 0.5698,
      "step": 58960
    },
    {
      "epoch": 2.928876527267309,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0005656938511969802,
      "loss": 0.5611,
      "step": 58970
    },
    {
      "epoch": 2.9293731995629284,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0005656541174133306,
      "loss": 0.5241,
      "step": 58980
    },
    {
      "epoch": 2.9298698718585476,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005656143836296812,
      "loss": 0.5577,
      "step": 58990
    },
    {
      "epoch": 2.9303665441541673,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0005655746498460317,
      "loss": 0.5671,
      "step": 59000
    },
    {
      "epoch": 2.9308632164497865,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.000565534916062382,
      "loss": 0.5119,
      "step": 59010
    },
    {
      "epoch": 2.9313598887454058,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005654951822787325,
      "loss": 0.5553,
      "step": 59020
    },
    {
      "epoch": 2.931856561041025,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005654554484950831,
      "loss": 0.5578,
      "step": 59030
    },
    {
      "epoch": 2.932353233336644,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005654157147114334,
      "loss": 0.5429,
      "step": 59040
    },
    {
      "epoch": 2.932849905632264,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0005653759809277839,
      "loss": 0.5359,
      "step": 59050
    },
    {
      "epoch": 2.933346577927883,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005653362471441343,
      "loss": 0.5667,
      "step": 59060
    },
    {
      "epoch": 2.933843250223503,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005652965133604847,
      "loss": 0.5741,
      "step": 59070
    },
    {
      "epoch": 2.934339922519122,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0005652567795768353,
      "loss": 0.5537,
      "step": 59080
    },
    {
      "epoch": 2.9348365948147412,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005652170457931857,
      "loss": 0.5458,
      "step": 59090
    },
    {
      "epoch": 2.9353332671103605,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005651773120095361,
      "loss": 0.597,
      "step": 59100
    },
    {
      "epoch": 2.9358299394059797,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005651375782258866,
      "loss": 0.5725,
      "step": 59110
    },
    {
      "epoch": 2.9363266117015994,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.000565097844442237,
      "loss": 0.5645,
      "step": 59120
    },
    {
      "epoch": 2.9368232839972186,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0005650581106585874,
      "loss": 0.5217,
      "step": 59130
    },
    {
      "epoch": 2.937319956292838,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.000565018376874938,
      "loss": 0.5433,
      "step": 59140
    },
    {
      "epoch": 2.9378166285884575,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005649786430912884,
      "loss": 0.5658,
      "step": 59150
    },
    {
      "epoch": 2.9383133008840767,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005649389093076389,
      "loss": 0.5592,
      "step": 59160
    },
    {
      "epoch": 2.938809973179696,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005648991755239892,
      "loss": 0.5329,
      "step": 59170
    },
    {
      "epoch": 2.939306645475315,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005648594417403397,
      "loss": 0.5381,
      "step": 59180
    },
    {
      "epoch": 2.939803317770935,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005648197079566903,
      "loss": 0.5439,
      "step": 59190
    },
    {
      "epoch": 2.940299990066554,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005647799741730406,
      "loss": 0.5555,
      "step": 59200
    },
    {
      "epoch": 2.9407966623621733,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005647402403893911,
      "loss": 0.5537,
      "step": 59210
    },
    {
      "epoch": 2.941293334657793,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005647005066057416,
      "loss": 0.5486,
      "step": 59220
    },
    {
      "epoch": 2.941790006953412,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005646607728220919,
      "loss": 0.5506,
      "step": 59230
    },
    {
      "epoch": 2.9422866792490314,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005646210390384425,
      "loss": 0.5734,
      "step": 59240
    },
    {
      "epoch": 2.9427833515446506,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005645813052547929,
      "loss": 0.5873,
      "step": 59250
    },
    {
      "epoch": 2.9432800238402703,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005645415714711433,
      "loss": 0.5386,
      "step": 59260
    },
    {
      "epoch": 2.9437766961358895,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005645018376874938,
      "loss": 0.542,
      "step": 59270
    },
    {
      "epoch": 2.9442733684315088,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005644621039038442,
      "loss": 0.5314,
      "step": 59280
    },
    {
      "epoch": 2.9447700407271284,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005644223701201948,
      "loss": 0.5418,
      "step": 59290
    },
    {
      "epoch": 2.9452667130227477,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0005643826363365452,
      "loss": 0.5572,
      "step": 59300
    },
    {
      "epoch": 2.945763385318367,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0005643429025528956,
      "loss": 0.5328,
      "step": 59310
    },
    {
      "epoch": 2.946260057613986,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0005643031687692461,
      "loss": 0.5504,
      "step": 59320
    },
    {
      "epoch": 2.946756729909606,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005642634349855965,
      "loss": 0.5546,
      "step": 59330
    },
    {
      "epoch": 2.947253402205225,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.000564223701201947,
      "loss": 0.5449,
      "step": 59340
    },
    {
      "epoch": 2.9477500745008443,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005641839674182975,
      "loss": 0.5657,
      "step": 59350
    },
    {
      "epoch": 2.948246746796464,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005641442336346479,
      "loss": 0.5305,
      "step": 59360
    },
    {
      "epoch": 2.948743419092083,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005641044998509983,
      "loss": 0.5326,
      "step": 59370
    },
    {
      "epoch": 2.9492400913877024,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005640647660673489,
      "loss": 0.5455,
      "step": 59380
    },
    {
      "epoch": 2.9497367636833216,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005640250322836992,
      "loss": 0.5653,
      "step": 59390
    },
    {
      "epoch": 2.950233435978941,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005639852985000497,
      "loss": 0.5481,
      "step": 59400
    },
    {
      "epoch": 2.9507301082745605,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005639455647164002,
      "loss": 0.5329,
      "step": 59410
    },
    {
      "epoch": 2.9512267805701797,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005639058309327505,
      "loss": 0.5738,
      "step": 59420
    },
    {
      "epoch": 2.9517234528657994,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.000563866097149101,
      "loss": 0.5695,
      "step": 59430
    },
    {
      "epoch": 2.9522201251614186,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005638263633654515,
      "loss": 0.5291,
      "step": 59440
    },
    {
      "epoch": 2.952716797457038,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.000563786629581802,
      "loss": 0.5616,
      "step": 59450
    },
    {
      "epoch": 2.953213469752657,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005637468957981524,
      "loss": 0.5414,
      "step": 59460
    },
    {
      "epoch": 2.9537101420482763,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005637071620145028,
      "loss": 0.5406,
      "step": 59470
    },
    {
      "epoch": 2.954206814343896,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0005636674282308533,
      "loss": 0.5475,
      "step": 59480
    },
    {
      "epoch": 2.954703486639515,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0005636276944472038,
      "loss": 0.541,
      "step": 59490
    },
    {
      "epoch": 2.9552001589351344,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005635879606635542,
      "loss": 0.5627,
      "step": 59500
    },
    {
      "epoch": 2.955696831230754,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005635482268799047,
      "loss": 0.5566,
      "step": 59510
    },
    {
      "epoch": 2.9561935035263733,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005635084930962551,
      "loss": 0.5491,
      "step": 59520
    },
    {
      "epoch": 2.9566901758219926,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005634687593126055,
      "loss": 0.5696,
      "step": 59530
    },
    {
      "epoch": 2.957186848117612,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005634290255289561,
      "loss": 0.5736,
      "step": 59540
    },
    {
      "epoch": 2.9576835204132315,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0005633892917453065,
      "loss": 0.5498,
      "step": 59550
    },
    {
      "epoch": 2.9581801927088507,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005633495579616569,
      "loss": 0.571,
      "step": 59560
    },
    {
      "epoch": 2.95867686500447,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005633098241780074,
      "loss": 0.5617,
      "step": 59570
    },
    {
      "epoch": 2.9591735373000896,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0005632700903943577,
      "loss": 0.563,
      "step": 59580
    },
    {
      "epoch": 2.959670209595709,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005632303566107083,
      "loss": 0.5737,
      "step": 59590
    },
    {
      "epoch": 2.960166881891328,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005631906228270588,
      "loss": 0.5386,
      "step": 59600
    },
    {
      "epoch": 2.9606635541869473,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005631508890434092,
      "loss": 0.561,
      "step": 59610
    },
    {
      "epoch": 2.961160226482567,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005631111552597596,
      "loss": 0.5493,
      "step": 59620
    },
    {
      "epoch": 2.961656898778186,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005630714214761101,
      "loss": 0.5367,
      "step": 59630
    },
    {
      "epoch": 2.9621535710738054,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005630316876924606,
      "loss": 0.5491,
      "step": 59640
    },
    {
      "epoch": 2.962650243369425,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.000562991953908811,
      "loss": 0.536,
      "step": 59650
    },
    {
      "epoch": 2.9631469156650443,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005629522201251614,
      "loss": 0.5557,
      "step": 59660
    },
    {
      "epoch": 2.9636435879606635,
      "grad_norm": 0.125,
      "learning_rate": 0.0005629124863415119,
      "loss": 0.57,
      "step": 59670
    },
    {
      "epoch": 2.9641402602562827,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005628727525578623,
      "loss": 0.5497,
      "step": 59680
    },
    {
      "epoch": 2.9646369325519024,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005628330187742128,
      "loss": 0.5465,
      "step": 59690
    },
    {
      "epoch": 2.9651336048475216,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0005627932849905633,
      "loss": 0.5469,
      "step": 59700
    },
    {
      "epoch": 2.965630277143141,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005627535512069137,
      "loss": 0.5711,
      "step": 59710
    },
    {
      "epoch": 2.9661269494387605,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0005627138174232641,
      "loss": 0.5855,
      "step": 59720
    },
    {
      "epoch": 2.9666236217343798,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0005626740836396146,
      "loss": 0.5443,
      "step": 59730
    },
    {
      "epoch": 2.967120294029999,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005626343498559651,
      "loss": 0.593,
      "step": 59740
    },
    {
      "epoch": 2.967616966325618,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005625946160723155,
      "loss": 0.5584,
      "step": 59750
    },
    {
      "epoch": 2.9681136386212374,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.000562554882288666,
      "loss": 0.5535,
      "step": 59760
    },
    {
      "epoch": 2.968610310916857,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005625151485050164,
      "loss": 0.5354,
      "step": 59770
    },
    {
      "epoch": 2.9691069832124763,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005624754147213668,
      "loss": 0.5449,
      "step": 59780
    },
    {
      "epoch": 2.969603655508096,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005624356809377174,
      "loss": 0.5572,
      "step": 59790
    },
    {
      "epoch": 2.9701003278037152,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0005623959471540678,
      "loss": 0.5555,
      "step": 59800
    },
    {
      "epoch": 2.9705970000993345,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005623562133704182,
      "loss": 0.5341,
      "step": 59810
    },
    {
      "epoch": 2.9710936723949537,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0005623164795867687,
      "loss": 0.5561,
      "step": 59820
    },
    {
      "epoch": 2.971590344690573,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0005622767458031191,
      "loss": 0.5475,
      "step": 59830
    },
    {
      "epoch": 2.9720870169861926,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005622370120194696,
      "loss": 0.5521,
      "step": 59840
    },
    {
      "epoch": 2.972583689281812,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.00056219727823582,
      "loss": 0.5514,
      "step": 59850
    },
    {
      "epoch": 2.973080361577431,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005621575444521705,
      "loss": 0.5566,
      "step": 59860
    },
    {
      "epoch": 2.9735770338730507,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005621178106685209,
      "loss": 0.5545,
      "step": 59870
    },
    {
      "epoch": 2.97407370616867,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005620780768848713,
      "loss": 0.5559,
      "step": 59880
    },
    {
      "epoch": 2.974570378464289,
      "grad_norm": 0.1875,
      "learning_rate": 0.0005620383431012219,
      "loss": 0.5307,
      "step": 59890
    },
    {
      "epoch": 2.9750670507599084,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0005619986093175724,
      "loss": 0.5339,
      "step": 59900
    },
    {
      "epoch": 2.975563723055528,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005619588755339227,
      "loss": 0.5683,
      "step": 59910
    },
    {
      "epoch": 2.9760603953511473,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005619191417502732,
      "loss": 0.5408,
      "step": 59920
    },
    {
      "epoch": 2.9765570676467665,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005618794079666236,
      "loss": 0.5533,
      "step": 59930
    },
    {
      "epoch": 2.977053739942386,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.000561839674182974,
      "loss": 0.5609,
      "step": 59940
    },
    {
      "epoch": 2.9775504122380054,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005617999403993246,
      "loss": 0.5143,
      "step": 59950
    },
    {
      "epoch": 2.9780470845336247,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.000561760206615675,
      "loss": 0.5777,
      "step": 59960
    },
    {
      "epoch": 2.978543756829244,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005617204728320254,
      "loss": 0.5602,
      "step": 59970
    },
    {
      "epoch": 2.9790404291248636,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005616807390483759,
      "loss": 0.5576,
      "step": 59980
    },
    {
      "epoch": 2.979537101420483,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005616410052647264,
      "loss": 0.5405,
      "step": 59990
    },
    {
      "epoch": 2.980033773716102,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005616012714810768,
      "loss": 0.5464,
      "step": 60000
    },
    {
      "epoch": 2.9805304460117217,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0005615615376974273,
      "loss": 0.557,
      "step": 60010
    },
    {
      "epoch": 2.981027118307341,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005615218039137777,
      "loss": 0.5384,
      "step": 60020
    },
    {
      "epoch": 2.98152379060296,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005614820701301282,
      "loss": 0.5597,
      "step": 60030
    },
    {
      "epoch": 2.9820204628985794,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005614423363464786,
      "loss": 0.5859,
      "step": 60040
    },
    {
      "epoch": 2.982517135194199,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005614026025628291,
      "loss": 0.5451,
      "step": 60050
    },
    {
      "epoch": 2.9830138074898183,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0005613628687791796,
      "loss": 0.5357,
      "step": 60060
    },
    {
      "epoch": 2.9835104797854375,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0005613231349955299,
      "loss": 0.5503,
      "step": 60070
    },
    {
      "epoch": 2.984007152081057,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005612834012118804,
      "loss": 0.5272,
      "step": 60080
    },
    {
      "epoch": 2.9845038243766764,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.000561243667428231,
      "loss": 0.5474,
      "step": 60090
    },
    {
      "epoch": 2.9850004966722956,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005612039336445813,
      "loss": 0.5673,
      "step": 60100
    },
    {
      "epoch": 2.985497168967915,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005611641998609318,
      "loss": 0.5401,
      "step": 60110
    },
    {
      "epoch": 2.985993841263534,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005611244660772822,
      "loss": 0.5523,
      "step": 60120
    },
    {
      "epoch": 2.9864905135591537,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005610847322936326,
      "loss": 0.5665,
      "step": 60130
    },
    {
      "epoch": 2.986987185854773,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005610449985099832,
      "loss": 0.517,
      "step": 60140
    },
    {
      "epoch": 2.9874838581503926,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005610052647263336,
      "loss": 0.552,
      "step": 60150
    },
    {
      "epoch": 2.987980530446012,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.000560965530942684,
      "loss": 0.5065,
      "step": 60160
    },
    {
      "epoch": 2.988477202741631,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005609257971590345,
      "loss": 0.542,
      "step": 60170
    },
    {
      "epoch": 2.9889738750372503,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0005608860633753849,
      "loss": 0.5447,
      "step": 60180
    },
    {
      "epoch": 2.9894705473328695,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005608463295917355,
      "loss": 0.5466,
      "step": 60190
    },
    {
      "epoch": 2.989967219628489,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005608065958080859,
      "loss": 0.5523,
      "step": 60200
    },
    {
      "epoch": 2.9904638919241084,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005607668620244363,
      "loss": 0.5566,
      "step": 60210
    },
    {
      "epoch": 2.9909605642197277,
      "grad_norm": 0.08740234375,
      "learning_rate": 0.0005607271282407868,
      "loss": 0.5332,
      "step": 60220
    },
    {
      "epoch": 2.9914572365153473,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005606873944571372,
      "loss": 0.5049,
      "step": 60230
    },
    {
      "epoch": 2.9919539088109666,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0005606476606734877,
      "loss": 0.5662,
      "step": 60240
    },
    {
      "epoch": 2.992450581106586,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005606079268898382,
      "loss": 0.5306,
      "step": 60250
    },
    {
      "epoch": 2.992947253402205,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005605681931061885,
      "loss": 0.5561,
      "step": 60260
    },
    {
      "epoch": 2.9934439256978247,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.000560528459322539,
      "loss": 0.5283,
      "step": 60270
    },
    {
      "epoch": 2.993940597993444,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0005604887255388895,
      "loss": 0.5596,
      "step": 60280
    },
    {
      "epoch": 2.994437270289063,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005604489917552398,
      "loss": 0.5754,
      "step": 60290
    },
    {
      "epoch": 2.994933942584683,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005604092579715904,
      "loss": 0.5628,
      "step": 60300
    },
    {
      "epoch": 2.995430614880302,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005603695241879408,
      "loss": 0.5484,
      "step": 60310
    },
    {
      "epoch": 2.9959272871759213,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005603297904042912,
      "loss": 0.5422,
      "step": 60320
    },
    {
      "epoch": 2.9964239594715405,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005602900566206417,
      "loss": 0.5361,
      "step": 60330
    },
    {
      "epoch": 2.99692063176716,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005602503228369921,
      "loss": 0.5161,
      "step": 60340
    },
    {
      "epoch": 2.9974173040627794,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005602105890533427,
      "loss": 0.5492,
      "step": 60350
    },
    {
      "epoch": 2.9979139763583986,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005601708552696931,
      "loss": 0.5375,
      "step": 60360
    },
    {
      "epoch": 2.9984106486540183,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005601311214860435,
      "loss": 0.5327,
      "step": 60370
    },
    {
      "epoch": 2.9989073209496375,
      "grad_norm": 0.17578125,
      "learning_rate": 0.000560091387702394,
      "loss": 0.5367,
      "step": 60380
    },
    {
      "epoch": 2.9994039932452567,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005600516539187445,
      "loss": 0.5471,
      "step": 60390
    },
    {
      "epoch": 2.999900665540876,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005600119201350949,
      "loss": 0.5716,
      "step": 60400
    },
    {
      "epoch": 3.0003973378364956,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005599721863514454,
      "loss": 0.5505,
      "step": 60410
    },
    {
      "epoch": 3.000894010132115,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005599324525677958,
      "loss": 0.5274,
      "step": 60420
    },
    {
      "epoch": 3.001390682427734,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005598927187841462,
      "loss": 0.5332,
      "step": 60430
    },
    {
      "epoch": 3.0018873547233533,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0005598529850004968,
      "loss": 0.5394,
      "step": 60440
    },
    {
      "epoch": 3.002384027018973,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0005598132512168471,
      "loss": 0.5643,
      "step": 60450
    },
    {
      "epoch": 3.0028806993145922,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0005597735174331976,
      "loss": 0.5487,
      "step": 60460
    },
    {
      "epoch": 3.0033773716102115,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005597337836495481,
      "loss": 0.5516,
      "step": 60470
    },
    {
      "epoch": 3.003874043905831,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005596940498658985,
      "loss": 0.5343,
      "step": 60480
    },
    {
      "epoch": 3.0043707162014504,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.000559654316082249,
      "loss": 0.5349,
      "step": 60490
    },
    {
      "epoch": 3.0048673884970696,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005596145822985995,
      "loss": 0.5361,
      "step": 60500
    },
    {
      "epoch": 3.005364060792689,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005595748485149499,
      "loss": 0.5158,
      "step": 60510
    },
    {
      "epoch": 3.0058607330883085,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005595351147313003,
      "loss": 0.5549,
      "step": 60520
    },
    {
      "epoch": 3.0063574053839277,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005594953809476507,
      "loss": 0.5027,
      "step": 60530
    },
    {
      "epoch": 3.006854077679547,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005594556471640013,
      "loss": 0.5512,
      "step": 60540
    },
    {
      "epoch": 3.0073507499751666,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005594159133803517,
      "loss": 0.5563,
      "step": 60550
    },
    {
      "epoch": 3.007847422270786,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005593761795967021,
      "loss": 0.551,
      "step": 60560
    },
    {
      "epoch": 3.008344094566405,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005593364458130526,
      "loss": 0.5456,
      "step": 60570
    },
    {
      "epoch": 3.0088407668620243,
      "grad_norm": 0.162109375,
      "learning_rate": 0.000559296712029403,
      "loss": 0.5606,
      "step": 60580
    },
    {
      "epoch": 3.009337439157644,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005592569782457534,
      "loss": 0.5347,
      "step": 60590
    },
    {
      "epoch": 3.009834111453263,
      "grad_norm": 0.138671875,
      "learning_rate": 0.000559217244462104,
      "loss": 0.5382,
      "step": 60600
    },
    {
      "epoch": 3.0103307837488824,
      "grad_norm": 0.140625,
      "learning_rate": 0.0005591775106784544,
      "loss": 0.5571,
      "step": 60610
    },
    {
      "epoch": 3.0108274560445016,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005591377768948048,
      "loss": 0.5239,
      "step": 60620
    },
    {
      "epoch": 3.0113241283401213,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0005590980431111553,
      "loss": 0.5453,
      "step": 60630
    },
    {
      "epoch": 3.0118208006357405,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005590583093275057,
      "loss": 0.5146,
      "step": 60640
    },
    {
      "epoch": 3.0123174729313598,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005590185755438562,
      "loss": 0.506,
      "step": 60650
    },
    {
      "epoch": 3.0128141452269794,
      "grad_norm": 0.09033203125,
      "learning_rate": 0.0005589788417602067,
      "loss": 0.5441,
      "step": 60660
    },
    {
      "epoch": 3.0133108175225987,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0005589391079765571,
      "loss": 0.5373,
      "step": 60670
    },
    {
      "epoch": 3.013807489818218,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0005588993741929075,
      "loss": 0.5262,
      "step": 60680
    },
    {
      "epoch": 3.014304162113837,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.000558859640409258,
      "loss": 0.5653,
      "step": 60690
    },
    {
      "epoch": 3.014800834409457,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005588199066256085,
      "loss": 0.5368,
      "step": 60700
    },
    {
      "epoch": 3.015297506705076,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0005587801728419589,
      "loss": 0.5373,
      "step": 60710
    },
    {
      "epoch": 3.0157941790006952,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005587404390583093,
      "loss": 0.5432,
      "step": 60720
    },
    {
      "epoch": 3.016290851296315,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005587007052746598,
      "loss": 0.5181,
      "step": 60730
    },
    {
      "epoch": 3.016787523591934,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0005586609714910102,
      "loss": 0.5347,
      "step": 60740
    },
    {
      "epoch": 3.0172841958875534,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005586212377073607,
      "loss": 0.5342,
      "step": 60750
    },
    {
      "epoch": 3.0177808681831726,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005585815039237112,
      "loss": 0.5126,
      "step": 60760
    },
    {
      "epoch": 3.0182775404787923,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0005585417701400616,
      "loss": 0.5561,
      "step": 60770
    },
    {
      "epoch": 3.0187742127744115,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.000558502036356412,
      "loss": 0.5455,
      "step": 60780
    },
    {
      "epoch": 3.0192708850700307,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005584623025727625,
      "loss": 0.5802,
      "step": 60790
    },
    {
      "epoch": 3.01976755736565,
      "grad_norm": 0.1328125,
      "learning_rate": 0.000558422568789113,
      "loss": 0.5601,
      "step": 60800
    },
    {
      "epoch": 3.0202642296612696,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0005583828350054634,
      "loss": 0.5845,
      "step": 60810
    },
    {
      "epoch": 3.020760901956889,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005583431012218139,
      "loss": 0.5392,
      "step": 60820
    },
    {
      "epoch": 3.021257574252508,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005583033674381643,
      "loss": 0.5334,
      "step": 60830
    },
    {
      "epoch": 3.0217542465481277,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005582636336545147,
      "loss": 0.5474,
      "step": 60840
    },
    {
      "epoch": 3.022250918843747,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005582238998708653,
      "loss": 0.5282,
      "step": 60850
    },
    {
      "epoch": 3.022747591139366,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005581841660872157,
      "loss": 0.547,
      "step": 60860
    },
    {
      "epoch": 3.0232442634349854,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005581444323035661,
      "loss": 0.5394,
      "step": 60870
    },
    {
      "epoch": 3.023740935730605,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005581046985199166,
      "loss": 0.5465,
      "step": 60880
    },
    {
      "epoch": 3.0242376080262243,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.000558064964736267,
      "loss": 0.5242,
      "step": 60890
    },
    {
      "epoch": 3.0247342803218435,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005580252309526175,
      "loss": 0.5338,
      "step": 60900
    },
    {
      "epoch": 3.0252309526174628,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005579854971689679,
      "loss": 0.5479,
      "step": 60910
    },
    {
      "epoch": 3.0257276249130824,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005579457633853184,
      "loss": 0.5434,
      "step": 60920
    },
    {
      "epoch": 3.0262242972087017,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005579060296016689,
      "loss": 0.5436,
      "step": 60930
    },
    {
      "epoch": 3.026720969504321,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005578662958180192,
      "loss": 0.5053,
      "step": 60940
    },
    {
      "epoch": 3.0272176417999406,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005578265620343698,
      "loss": 0.52,
      "step": 60950
    },
    {
      "epoch": 3.02771431409556,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005577868282507203,
      "loss": 0.5536,
      "step": 60960
    },
    {
      "epoch": 3.028210986391179,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005577470944670706,
      "loss": 0.54,
      "step": 60970
    },
    {
      "epoch": 3.0287076586867983,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005577073606834211,
      "loss": 0.5429,
      "step": 60980
    },
    {
      "epoch": 3.029204330982418,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0005576676268997715,
      "loss": 0.4954,
      "step": 60990
    },
    {
      "epoch": 3.029701003278037,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.000557627893116122,
      "loss": 0.5265,
      "step": 61000
    },
    {
      "epoch": 3.0301976755736564,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005575881593324725,
      "loss": 0.554,
      "step": 61010
    },
    {
      "epoch": 3.030694347869276,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005575484255488229,
      "loss": 0.595,
      "step": 61020
    },
    {
      "epoch": 3.0311910201648953,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0005575086917651733,
      "loss": 0.5713,
      "step": 61030
    },
    {
      "epoch": 3.0316876924605145,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005574689579815238,
      "loss": 0.5409,
      "step": 61040
    },
    {
      "epoch": 3.0321843647561337,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005574292241978743,
      "loss": 0.529,
      "step": 61050
    },
    {
      "epoch": 3.0326810370517534,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005573894904142247,
      "loss": 0.5127,
      "step": 61060
    },
    {
      "epoch": 3.0331777093473726,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005573497566305752,
      "loss": 0.5463,
      "step": 61070
    },
    {
      "epoch": 3.033674381642992,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005573100228469256,
      "loss": 0.5276,
      "step": 61080
    },
    {
      "epoch": 3.0341710539386115,
      "grad_norm": 0.125,
      "learning_rate": 0.0005572702890632761,
      "loss": 0.5473,
      "step": 61090
    },
    {
      "epoch": 3.0346677262342308,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0005572305552796266,
      "loss": 0.5491,
      "step": 61100
    },
    {
      "epoch": 3.03516439852985,
      "grad_norm": 0.126953125,
      "learning_rate": 0.000557190821495977,
      "loss": 0.5376,
      "step": 61110
    },
    {
      "epoch": 3.035661070825469,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005571510877123275,
      "loss": 0.5374,
      "step": 61120
    },
    {
      "epoch": 3.036157743121089,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005571113539286778,
      "loss": 0.549,
      "step": 61130
    },
    {
      "epoch": 3.036654415416708,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0005570716201450283,
      "loss": 0.5694,
      "step": 61140
    },
    {
      "epoch": 3.0371510877123273,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0005570318863613789,
      "loss": 0.5125,
      "step": 61150
    },
    {
      "epoch": 3.0376477600079466,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005569921525777292,
      "loss": 0.5519,
      "step": 61160
    },
    {
      "epoch": 3.0381444323035662,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005569524187940797,
      "loss": 0.5451,
      "step": 61170
    },
    {
      "epoch": 3.0386411045991855,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005569126850104301,
      "loss": 0.5599,
      "step": 61180
    },
    {
      "epoch": 3.0391377768948047,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005568729512267805,
      "loss": 0.4976,
      "step": 61190
    },
    {
      "epoch": 3.0396344491904244,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005568332174431311,
      "loss": 0.5451,
      "step": 61200
    },
    {
      "epoch": 3.0401311214860436,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005567934836594815,
      "loss": 0.5469,
      "step": 61210
    },
    {
      "epoch": 3.040627793781663,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005567537498758319,
      "loss": 0.5476,
      "step": 61220
    },
    {
      "epoch": 3.041124466077282,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005567140160921824,
      "loss": 0.5501,
      "step": 61230
    },
    {
      "epoch": 3.0416211383729017,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0005566742823085328,
      "loss": 0.5679,
      "step": 61240
    },
    {
      "epoch": 3.042117810668521,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005566345485248834,
      "loss": 0.5431,
      "step": 61250
    },
    {
      "epoch": 3.04261448296414,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0005565948147412338,
      "loss": 0.5192,
      "step": 61260
    },
    {
      "epoch": 3.0431111552597594,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005565550809575842,
      "loss": 0.5309,
      "step": 61270
    },
    {
      "epoch": 3.043607827555379,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0005565153471739347,
      "loss": 0.5166,
      "step": 61280
    },
    {
      "epoch": 3.0441044998509983,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0005564756133902851,
      "loss": 0.5208,
      "step": 61290
    },
    {
      "epoch": 3.0446011721466175,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005564358796066356,
      "loss": 0.5551,
      "step": 61300
    },
    {
      "epoch": 3.045097844442237,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005563961458229861,
      "loss": 0.5407,
      "step": 61310
    },
    {
      "epoch": 3.0455945167378564,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0005563564120393364,
      "loss": 0.5215,
      "step": 61320
    },
    {
      "epoch": 3.0460911890334756,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005563166782556869,
      "loss": 0.5664,
      "step": 61330
    },
    {
      "epoch": 3.046587861329095,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005562769444720374,
      "loss": 0.5375,
      "step": 61340
    },
    {
      "epoch": 3.0470845336247145,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005562372106883878,
      "loss": 0.5631,
      "step": 61350
    },
    {
      "epoch": 3.0475812059203338,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005561974769047383,
      "loss": 0.5521,
      "step": 61360
    },
    {
      "epoch": 3.048077878215953,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005561577431210888,
      "loss": 0.5416,
      "step": 61370
    },
    {
      "epoch": 3.0485745505115727,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0005561180093374392,
      "loss": 0.5347,
      "step": 61380
    },
    {
      "epoch": 3.049071222807192,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005560782755537896,
      "loss": 0.5525,
      "step": 61390
    },
    {
      "epoch": 3.049567895102811,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.00055603854177014,
      "loss": 0.5232,
      "step": 61400
    },
    {
      "epoch": 3.0500645673984303,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005559988079864906,
      "loss": 0.5682,
      "step": 61410
    },
    {
      "epoch": 3.05056123969405,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.000555959074202841,
      "loss": 0.5561,
      "step": 61420
    },
    {
      "epoch": 3.0510579119896692,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005559193404191914,
      "loss": 0.547,
      "step": 61430
    },
    {
      "epoch": 3.0515545842852885,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005558796066355419,
      "loss": 0.5549,
      "step": 61440
    },
    {
      "epoch": 3.0520512565809077,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005558398728518924,
      "loss": 0.534,
      "step": 61450
    },
    {
      "epoch": 3.0525479288765274,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005558001390682428,
      "loss": 0.5269,
      "step": 61460
    },
    {
      "epoch": 3.0530446011721466,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005557604052845933,
      "loss": 0.554,
      "step": 61470
    },
    {
      "epoch": 3.053541273467766,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005557206715009437,
      "loss": 0.5262,
      "step": 61480
    },
    {
      "epoch": 3.0540379457633855,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0005556809377172941,
      "loss": 0.5439,
      "step": 61490
    },
    {
      "epoch": 3.0545346180590047,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0005556412039336447,
      "loss": 0.5188,
      "step": 61500
    },
    {
      "epoch": 3.055031290354624,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.000555601470149995,
      "loss": 0.5862,
      "step": 61510
    },
    {
      "epoch": 3.055527962650243,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005555617363663455,
      "loss": 0.5218,
      "step": 61520
    },
    {
      "epoch": 3.056024634945863,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.000555522002582696,
      "loss": 0.5514,
      "step": 61530
    },
    {
      "epoch": 3.056521307241482,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0005554822687990464,
      "loss": 0.5412,
      "step": 61540
    },
    {
      "epoch": 3.0570179795371013,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005554425350153969,
      "loss": 0.5377,
      "step": 61550
    },
    {
      "epoch": 3.057514651832721,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005554028012317474,
      "loss": 0.519,
      "step": 61560
    },
    {
      "epoch": 3.05801132412834,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005553630674480978,
      "loss": 0.5234,
      "step": 61570
    },
    {
      "epoch": 3.0585079964239594,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005553233336644482,
      "loss": 0.5131,
      "step": 61580
    },
    {
      "epoch": 3.0590046687195787,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0005552835998807986,
      "loss": 0.5561,
      "step": 61590
    },
    {
      "epoch": 3.0595013410151983,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0005552438660971492,
      "loss": 0.5365,
      "step": 61600
    },
    {
      "epoch": 3.0599980133108176,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005552041323134996,
      "loss": 0.5246,
      "step": 61610
    },
    {
      "epoch": 3.060494685606437,
      "grad_norm": 0.142578125,
      "learning_rate": 0.00055516439852985,
      "loss": 0.5475,
      "step": 61620
    },
    {
      "epoch": 3.060991357902056,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005551246647462005,
      "loss": 0.5341,
      "step": 61630
    },
    {
      "epoch": 3.0614880301976757,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005550849309625509,
      "loss": 0.529,
      "step": 61640
    },
    {
      "epoch": 3.061984702493295,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005550451971789013,
      "loss": 0.5492,
      "step": 61650
    },
    {
      "epoch": 3.062481374788914,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005550054633952519,
      "loss": 0.5384,
      "step": 61660
    },
    {
      "epoch": 3.062978047084534,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005549657296116023,
      "loss": 0.5352,
      "step": 61670
    },
    {
      "epoch": 3.063474719380153,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005549259958279527,
      "loss": 0.5321,
      "step": 61680
    },
    {
      "epoch": 3.0639713916757723,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0005548862620443032,
      "loss": 0.5378,
      "step": 61690
    },
    {
      "epoch": 3.0644680639713915,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005548465282606537,
      "loss": 0.5709,
      "step": 61700
    },
    {
      "epoch": 3.064964736267011,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005548067944770041,
      "loss": 0.5592,
      "step": 61710
    },
    {
      "epoch": 3.0654614085626304,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0005547670606933546,
      "loss": 0.5601,
      "step": 61720
    },
    {
      "epoch": 3.0659580808582496,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.000554727326909705,
      "loss": 0.5452,
      "step": 61730
    },
    {
      "epoch": 3.0664547531538693,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005546875931260554,
      "loss": 0.554,
      "step": 61740
    },
    {
      "epoch": 3.0669514254494885,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.000554647859342406,
      "loss": 0.5515,
      "step": 61750
    },
    {
      "epoch": 3.0674480977451077,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005546081255587564,
      "loss": 0.537,
      "step": 61760
    },
    {
      "epoch": 3.067944770040727,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0005545683917751068,
      "loss": 0.5719,
      "step": 61770
    },
    {
      "epoch": 3.0684414423363466,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0005545286579914572,
      "loss": 0.4947,
      "step": 61780
    },
    {
      "epoch": 3.068938114631966,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005544889242078077,
      "loss": 0.5461,
      "step": 61790
    },
    {
      "epoch": 3.069434786927585,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005544491904241581,
      "loss": 0.5729,
      "step": 61800
    },
    {
      "epoch": 3.0699314592232043,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0005544094566405086,
      "loss": 0.5313,
      "step": 61810
    },
    {
      "epoch": 3.070428131518824,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005543697228568591,
      "loss": 0.5505,
      "step": 61820
    },
    {
      "epoch": 3.070924803814443,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0005543299890732096,
      "loss": 0.5322,
      "step": 61830
    },
    {
      "epoch": 3.0714214761100624,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005542902552895599,
      "loss": 0.5548,
      "step": 61840
    },
    {
      "epoch": 3.071918148405682,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005542505215059105,
      "loss": 0.5299,
      "step": 61850
    },
    {
      "epoch": 3.0724148207013013,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005542107877222609,
      "loss": 0.5366,
      "step": 61860
    },
    {
      "epoch": 3.0729114929969206,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005541710539386113,
      "loss": 0.5327,
      "step": 61870
    },
    {
      "epoch": 3.07340816529254,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0005541313201549618,
      "loss": 0.5327,
      "step": 61880
    },
    {
      "epoch": 3.0739048375881595,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0005540915863713122,
      "loss": 0.563,
      "step": 61890
    },
    {
      "epoch": 3.0744015098837787,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005540518525876626,
      "loss": 0.5256,
      "step": 61900
    },
    {
      "epoch": 3.074898182179398,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005540121188040132,
      "loss": 0.5415,
      "step": 61910
    },
    {
      "epoch": 3.0753948544750176,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0005539723850203636,
      "loss": 0.5438,
      "step": 61920
    },
    {
      "epoch": 3.075891526770637,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.000553932651236714,
      "loss": 0.5567,
      "step": 61930
    },
    {
      "epoch": 3.076388199066256,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005538929174530645,
      "loss": 0.5373,
      "step": 61940
    },
    {
      "epoch": 3.0768848713618753,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.000553853183669415,
      "loss": 0.5203,
      "step": 61950
    },
    {
      "epoch": 3.077381543657495,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0005538134498857654,
      "loss": 0.5388,
      "step": 61960
    },
    {
      "epoch": 3.077878215953114,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005537737161021158,
      "loss": 0.5174,
      "step": 61970
    },
    {
      "epoch": 3.0783748882487334,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005537339823184663,
      "loss": 0.5629,
      "step": 61980
    },
    {
      "epoch": 3.0788715605443526,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005536942485348168,
      "loss": 0.5578,
      "step": 61990
    },
    {
      "epoch": 3.0793682328399723,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005536545147511671,
      "loss": 0.5396,
      "step": 62000
    },
    {
      "epoch": 3.0798649051355915,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005536147809675177,
      "loss": 0.5275,
      "step": 62010
    },
    {
      "epoch": 3.0803615774312108,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005535750471838682,
      "loss": 0.5266,
      "step": 62020
    },
    {
      "epoch": 3.0808582497268304,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005535353134002185,
      "loss": 0.5339,
      "step": 62030
    },
    {
      "epoch": 3.0813549220224496,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.000553495579616569,
      "loss": 0.5053,
      "step": 62040
    },
    {
      "epoch": 3.081851594318069,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005534558458329194,
      "loss": 0.5093,
      "step": 62050
    },
    {
      "epoch": 3.082348266613688,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0005534161120492699,
      "loss": 0.5779,
      "step": 62060
    },
    {
      "epoch": 3.0828449389093078,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005533763782656204,
      "loss": 0.5301,
      "step": 62070
    },
    {
      "epoch": 3.083341611204927,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0005533366444819708,
      "loss": 0.5422,
      "step": 62080
    },
    {
      "epoch": 3.0838382835005462,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005532969106983212,
      "loss": 0.5463,
      "step": 62090
    },
    {
      "epoch": 3.084334955796166,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005532571769146717,
      "loss": 0.5811,
      "step": 62100
    },
    {
      "epoch": 3.084831628091785,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005532174431310222,
      "loss": 0.5423,
      "step": 62110
    },
    {
      "epoch": 3.0853283003874044,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0005531777093473726,
      "loss": 0.5375,
      "step": 62120
    },
    {
      "epoch": 3.0858249726830236,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005531379755637231,
      "loss": 0.5421,
      "step": 62130
    },
    {
      "epoch": 3.0863216449786433,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0005530982417800735,
      "loss": 0.5549,
      "step": 62140
    },
    {
      "epoch": 3.0868183172742625,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.000553058507996424,
      "loss": 0.5281,
      "step": 62150
    },
    {
      "epoch": 3.0873149895698817,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005530187742127745,
      "loss": 0.5695,
      "step": 62160
    },
    {
      "epoch": 3.087811661865501,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005529790404291249,
      "loss": 0.5456,
      "step": 62170
    },
    {
      "epoch": 3.0883083341611206,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005529393066454754,
      "loss": 0.5652,
      "step": 62180
    },
    {
      "epoch": 3.08880500645674,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005528995728618257,
      "loss": 0.5569,
      "step": 62190
    },
    {
      "epoch": 3.089301678752359,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005528598390781762,
      "loss": 0.5453,
      "step": 62200
    },
    {
      "epoch": 3.0897983510479787,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005528201052945268,
      "loss": 0.5413,
      "step": 62210
    },
    {
      "epoch": 3.090295023343598,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005527803715108771,
      "loss": 0.545,
      "step": 62220
    },
    {
      "epoch": 3.090791695639217,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0005527406377272276,
      "loss": 0.5355,
      "step": 62230
    },
    {
      "epoch": 3.0912883679348364,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.000552700903943578,
      "loss": 0.5564,
      "step": 62240
    },
    {
      "epoch": 3.091785040230456,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005526611701599284,
      "loss": 0.5451,
      "step": 62250
    },
    {
      "epoch": 3.0922817125260753,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.000552621436376279,
      "loss": 0.5192,
      "step": 62260
    },
    {
      "epoch": 3.0927783848216945,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005525817025926294,
      "loss": 0.521,
      "step": 62270
    },
    {
      "epoch": 3.093275057117314,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005525419688089799,
      "loss": 0.5656,
      "step": 62280
    },
    {
      "epoch": 3.0937717294129334,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005525022350253303,
      "loss": 0.5135,
      "step": 62290
    },
    {
      "epoch": 3.0942684017085527,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005524625012416807,
      "loss": 0.5452,
      "step": 62300
    },
    {
      "epoch": 3.094765074004172,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005524227674580313,
      "loss": 0.5428,
      "step": 62310
    },
    {
      "epoch": 3.0952617462997916,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005523830336743817,
      "loss": 0.5487,
      "step": 62320
    },
    {
      "epoch": 3.095758418595411,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0005523432998907321,
      "loss": 0.5499,
      "step": 62330
    },
    {
      "epoch": 3.09625509089103,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005523035661070826,
      "loss": 0.55,
      "step": 62340
    },
    {
      "epoch": 3.0967517631866492,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.000552263832323433,
      "loss": 0.5263,
      "step": 62350
    },
    {
      "epoch": 3.097248435482269,
      "grad_norm": 0.15625,
      "learning_rate": 0.0005522240985397835,
      "loss": 0.5364,
      "step": 62360
    },
    {
      "epoch": 3.097745107777888,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000552184364756134,
      "loss": 0.5405,
      "step": 62370
    },
    {
      "epoch": 3.0982417800735074,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0005521446309724843,
      "loss": 0.5298,
      "step": 62380
    },
    {
      "epoch": 3.098738452369127,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005521048971888348,
      "loss": 0.5596,
      "step": 62390
    },
    {
      "epoch": 3.0992351246647463,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005520651634051853,
      "loss": 0.5401,
      "step": 62400
    },
    {
      "epoch": 3.0997317969603655,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005520254296215357,
      "loss": 0.5401,
      "step": 62410
    },
    {
      "epoch": 3.1002284692559847,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005519856958378862,
      "loss": 0.5443,
      "step": 62420
    },
    {
      "epoch": 3.1007251415516044,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005519459620542367,
      "loss": 0.538,
      "step": 62430
    },
    {
      "epoch": 3.1012218138472236,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005519062282705871,
      "loss": 0.524,
      "step": 62440
    },
    {
      "epoch": 3.101718486142843,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0005518664944869375,
      "loss": 0.5423,
      "step": 62450
    },
    {
      "epoch": 3.1022151584384625,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.000551826760703288,
      "loss": 0.5312,
      "step": 62460
    },
    {
      "epoch": 3.1027118307340817,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005517870269196385,
      "loss": 0.5245,
      "step": 62470
    },
    {
      "epoch": 3.103208503029701,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005517472931359889,
      "loss": 0.5601,
      "step": 62480
    },
    {
      "epoch": 3.10370517532532,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005517075593523393,
      "loss": 0.5267,
      "step": 62490
    },
    {
      "epoch": 3.10420184762094,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005516678255686898,
      "loss": 0.569,
      "step": 62500
    },
    {
      "epoch": 3.104698519916559,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005516280917850403,
      "loss": 0.5465,
      "step": 62510
    },
    {
      "epoch": 3.1051951922121783,
      "grad_norm": 0.08642578125,
      "learning_rate": 0.0005515883580013907,
      "loss": 0.5337,
      "step": 62520
    },
    {
      "epoch": 3.1056918645077976,
      "grad_norm": 0.15625,
      "learning_rate": 0.0005515486242177412,
      "loss": 0.5241,
      "step": 62530
    },
    {
      "epoch": 3.106188536803417,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0005515088904340916,
      "loss": 0.5715,
      "step": 62540
    },
    {
      "epoch": 3.1066852090990364,
      "grad_norm": 0.12890625,
      "learning_rate": 0.000551469156650442,
      "loss": 0.5474,
      "step": 62550
    },
    {
      "epoch": 3.1071818813946557,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005514294228667926,
      "loss": 0.5265,
      "step": 62560
    },
    {
      "epoch": 3.1076785536902753,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.000551389689083143,
      "loss": 0.5357,
      "step": 62570
    },
    {
      "epoch": 3.1081752259858946,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0005513499552994934,
      "loss": 0.5471,
      "step": 62580
    },
    {
      "epoch": 3.108671898281514,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005513102215158439,
      "loss": 0.5478,
      "step": 62590
    },
    {
      "epoch": 3.109168570577133,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005512704877321943,
      "loss": 0.5785,
      "step": 62600
    },
    {
      "epoch": 3.1096652428727527,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005512307539485448,
      "loss": 0.5711,
      "step": 62610
    },
    {
      "epoch": 3.110161915168372,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005511910201648953,
      "loss": 0.533,
      "step": 62620
    },
    {
      "epoch": 3.110658587463991,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005511512863812457,
      "loss": 0.5451,
      "step": 62630
    },
    {
      "epoch": 3.1111552597596104,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005511115525975961,
      "loss": 0.544,
      "step": 62640
    },
    {
      "epoch": 3.11165193205523,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005510718188139465,
      "loss": 0.529,
      "step": 62650
    },
    {
      "epoch": 3.1121486043508493,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005510320850302971,
      "loss": 0.5538,
      "step": 62660
    },
    {
      "epoch": 3.1126452766464685,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005509923512466475,
      "loss": 0.5443,
      "step": 62670
    },
    {
      "epoch": 3.113141948942088,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0005509526174629979,
      "loss": 0.5412,
      "step": 62680
    },
    {
      "epoch": 3.1136386212377074,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005509128836793484,
      "loss": 0.5474,
      "step": 62690
    },
    {
      "epoch": 3.1141352935333266,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005508731498956988,
      "loss": 0.5529,
      "step": 62700
    },
    {
      "epoch": 3.114631965828946,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005508334161120493,
      "loss": 0.5555,
      "step": 62710
    },
    {
      "epoch": 3.1151286381245655,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0005507936823283998,
      "loss": 0.5342,
      "step": 62720
    },
    {
      "epoch": 3.1156253104201848,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0005507539485447502,
      "loss": 0.5442,
      "step": 62730
    },
    {
      "epoch": 3.116121982715804,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005507142147611006,
      "loss": 0.5198,
      "step": 62740
    },
    {
      "epoch": 3.1166186550114237,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0005506744809774511,
      "loss": 0.5384,
      "step": 62750
    },
    {
      "epoch": 3.117115327307043,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005506347471938016,
      "loss": 0.5622,
      "step": 62760
    },
    {
      "epoch": 3.117611999602662,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.000550595013410152,
      "loss": 0.5312,
      "step": 62770
    },
    {
      "epoch": 3.1181086718982813,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005505552796265025,
      "loss": 0.5747,
      "step": 62780
    },
    {
      "epoch": 3.118605344193901,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005505155458428529,
      "loss": 0.5556,
      "step": 62790
    },
    {
      "epoch": 3.1191020164895202,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005504758120592033,
      "loss": 0.5464,
      "step": 62800
    },
    {
      "epoch": 3.1195986887851395,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005504360782755539,
      "loss": 0.5591,
      "step": 62810
    },
    {
      "epoch": 3.120095361080759,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005503963444919043,
      "loss": 0.5534,
      "step": 62820
    },
    {
      "epoch": 3.1205920333763784,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005503566107082547,
      "loss": 0.5294,
      "step": 62830
    },
    {
      "epoch": 3.1210887056719976,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005503168769246051,
      "loss": 0.5288,
      "step": 62840
    },
    {
      "epoch": 3.121585377967617,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005502771431409556,
      "loss": 0.5457,
      "step": 62850
    },
    {
      "epoch": 3.1220820502632365,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.000550237409357306,
      "loss": 0.5185,
      "step": 62860
    },
    {
      "epoch": 3.1225787225588557,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005501976755736565,
      "loss": 0.5331,
      "step": 62870
    },
    {
      "epoch": 3.123075394854475,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.000550157941790007,
      "loss": 0.5471,
      "step": 62880
    },
    {
      "epoch": 3.123572067150094,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005501182080063575,
      "loss": 0.5435,
      "step": 62890
    },
    {
      "epoch": 3.124068739445714,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005500784742227078,
      "loss": 0.5571,
      "step": 62900
    },
    {
      "epoch": 3.124565411741333,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005500387404390584,
      "loss": 0.5406,
      "step": 62910
    },
    {
      "epoch": 3.1250620840369523,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005499990066554088,
      "loss": 0.5539,
      "step": 62920
    },
    {
      "epoch": 3.125558756332572,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005499592728717592,
      "loss": 0.5627,
      "step": 62930
    },
    {
      "epoch": 3.126055428628191,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005499195390881097,
      "loss": 0.5457,
      "step": 62940
    },
    {
      "epoch": 3.1265521009238104,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005498798053044601,
      "loss": 0.5293,
      "step": 62950
    },
    {
      "epoch": 3.1270487732194296,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005498400715208105,
      "loss": 0.5657,
      "step": 62960
    },
    {
      "epoch": 3.1275454455150493,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005498003377371611,
      "loss": 0.5352,
      "step": 62970
    },
    {
      "epoch": 3.1280421178106685,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005497606039535115,
      "loss": 0.5144,
      "step": 62980
    },
    {
      "epoch": 3.1285387901062878,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005497208701698619,
      "loss": 0.5005,
      "step": 62990
    },
    {
      "epoch": 3.129035462401907,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005496811363862124,
      "loss": 0.5394,
      "step": 63000
    },
    {
      "epoch": 3.1295321346975267,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005496414026025629,
      "loss": 0.5577,
      "step": 63010
    },
    {
      "epoch": 3.130028806993146,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005496016688189134,
      "loss": 0.5583,
      "step": 63020
    },
    {
      "epoch": 3.130525479288765,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005495619350352638,
      "loss": 0.5588,
      "step": 63030
    },
    {
      "epoch": 3.131022151584385,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005495222012516142,
      "loss": 0.5226,
      "step": 63040
    },
    {
      "epoch": 3.131518823880004,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005494824674679647,
      "loss": 0.5239,
      "step": 63050
    },
    {
      "epoch": 3.1320154961756232,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.000549442733684315,
      "loss": 0.5049,
      "step": 63060
    },
    {
      "epoch": 3.1325121684712425,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005494029999006656,
      "loss": 0.5572,
      "step": 63070
    },
    {
      "epoch": 3.133008840766862,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005493632661170161,
      "loss": 0.5536,
      "step": 63080
    },
    {
      "epoch": 3.1335055130624814,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005493235323333664,
      "loss": 0.5535,
      "step": 63090
    },
    {
      "epoch": 3.1340021853581006,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0005492837985497169,
      "loss": 0.5422,
      "step": 63100
    },
    {
      "epoch": 3.1344988576537203,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005492440647660673,
      "loss": 0.569,
      "step": 63110
    },
    {
      "epoch": 3.1349955299493395,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005492043309824178,
      "loss": 0.5438,
      "step": 63120
    },
    {
      "epoch": 3.1354922022449587,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0005491645971987683,
      "loss": 0.5527,
      "step": 63130
    },
    {
      "epoch": 3.135988874540578,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005491248634151187,
      "loss": 0.5441,
      "step": 63140
    },
    {
      "epoch": 3.1364855468361976,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005490851296314691,
      "loss": 0.5532,
      "step": 63150
    },
    {
      "epoch": 3.136982219131817,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005490453958478197,
      "loss": 0.5299,
      "step": 63160
    },
    {
      "epoch": 3.137478891427436,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005490056620641701,
      "loss": 0.5217,
      "step": 63170
    },
    {
      "epoch": 3.1379755637230557,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0005489659282805206,
      "loss": 0.5396,
      "step": 63180
    },
    {
      "epoch": 3.138472236018675,
      "grad_norm": 0.109375,
      "learning_rate": 0.000548926194496871,
      "loss": 0.5253,
      "step": 63190
    },
    {
      "epoch": 3.138968908314294,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0005488864607132214,
      "loss": 0.5396,
      "step": 63200
    },
    {
      "epoch": 3.1394655806099134,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.000548846726929572,
      "loss": 0.5891,
      "step": 63210
    },
    {
      "epoch": 3.139962252905533,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005488069931459224,
      "loss": 0.5388,
      "step": 63220
    },
    {
      "epoch": 3.1404589252011523,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005487672593622728,
      "loss": 0.5178,
      "step": 63230
    },
    {
      "epoch": 3.1409555974967716,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005487275255786233,
      "loss": 0.5149,
      "step": 63240
    },
    {
      "epoch": 3.141452269792391,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005486877917949736,
      "loss": 0.5216,
      "step": 63250
    },
    {
      "epoch": 3.1419489420880105,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005486480580113241,
      "loss": 0.5156,
      "step": 63260
    },
    {
      "epoch": 3.1424456143836297,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005486083242276747,
      "loss": 0.5361,
      "step": 63270
    },
    {
      "epoch": 3.142942286679249,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000548568590444025,
      "loss": 0.5553,
      "step": 63280
    },
    {
      "epoch": 3.1434389589748686,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005485288566603755,
      "loss": 0.5313,
      "step": 63290
    },
    {
      "epoch": 3.143935631270488,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.000548489122876726,
      "loss": 0.5264,
      "step": 63300
    },
    {
      "epoch": 3.144432303566107,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0005484493890930763,
      "loss": 0.5595,
      "step": 63310
    },
    {
      "epoch": 3.1449289758617263,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005484096553094269,
      "loss": 0.526,
      "step": 63320
    },
    {
      "epoch": 3.145425648157346,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005483699215257773,
      "loss": 0.5358,
      "step": 63330
    },
    {
      "epoch": 3.145922320452965,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005483301877421278,
      "loss": 0.5369,
      "step": 63340
    },
    {
      "epoch": 3.1464189927485844,
      "grad_norm": 0.140625,
      "learning_rate": 0.0005482904539584782,
      "loss": 0.537,
      "step": 63350
    },
    {
      "epoch": 3.1469156650442036,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005482507201748286,
      "loss": 0.5195,
      "step": 63360
    },
    {
      "epoch": 3.1474123373398233,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005482109863911792,
      "loss": 0.5355,
      "step": 63370
    },
    {
      "epoch": 3.1479090096354425,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0005481712526075296,
      "loss": 0.5421,
      "step": 63380
    },
    {
      "epoch": 3.1484056819310617,
      "grad_norm": 0.125,
      "learning_rate": 0.00054813151882388,
      "loss": 0.5275,
      "step": 63390
    },
    {
      "epoch": 3.1489023542266814,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005480917850402305,
      "loss": 0.5508,
      "step": 63400
    },
    {
      "epoch": 3.1493990265223006,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.000548052051256581,
      "loss": 0.5531,
      "step": 63410
    },
    {
      "epoch": 3.14989569881792,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005480123174729314,
      "loss": 0.5266,
      "step": 63420
    },
    {
      "epoch": 3.150392371113539,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005479725836892819,
      "loss": 0.5375,
      "step": 63430
    },
    {
      "epoch": 3.1508890434091588,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005479328499056322,
      "loss": 0.5275,
      "step": 63440
    },
    {
      "epoch": 3.151385715704778,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0005478931161219827,
      "loss": 0.5394,
      "step": 63450
    },
    {
      "epoch": 3.151882388000397,
      "grad_norm": 0.125,
      "learning_rate": 0.0005478533823383332,
      "loss": 0.5159,
      "step": 63460
    },
    {
      "epoch": 3.152379060296017,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0005478136485546837,
      "loss": 0.5586,
      "step": 63470
    },
    {
      "epoch": 3.152875732591636,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005477739147710341,
      "loss": 0.5405,
      "step": 63480
    },
    {
      "epoch": 3.1533724048872553,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005477341809873846,
      "loss": 0.5514,
      "step": 63490
    },
    {
      "epoch": 3.1538690771828746,
      "grad_norm": 0.1015625,
      "learning_rate": 0.000547694447203735,
      "loss": 0.5254,
      "step": 63500
    },
    {
      "epoch": 3.1543657494784942,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005476547134200854,
      "loss": 0.5192,
      "step": 63510
    },
    {
      "epoch": 3.1548624217741135,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005476149796364359,
      "loss": 0.5334,
      "step": 63520
    },
    {
      "epoch": 3.1553590940697327,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005475752458527864,
      "loss": 0.5305,
      "step": 63530
    },
    {
      "epoch": 3.1558557663653524,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005475355120691368,
      "loss": 0.5516,
      "step": 63540
    },
    {
      "epoch": 3.1563524386609716,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005474957782854872,
      "loss": 0.5457,
      "step": 63550
    },
    {
      "epoch": 3.156849110956591,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005474560445018377,
      "loss": 0.5303,
      "step": 63560
    },
    {
      "epoch": 3.15734578325221,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0005474163107181882,
      "loss": 0.5292,
      "step": 63570
    },
    {
      "epoch": 3.1578424555478297,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005473765769345386,
      "loss": 0.5164,
      "step": 63580
    },
    {
      "epoch": 3.158339127843449,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005473368431508891,
      "loss": 0.5831,
      "step": 63590
    },
    {
      "epoch": 3.158835800139068,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005472971093672395,
      "loss": 0.5374,
      "step": 63600
    },
    {
      "epoch": 3.1593324724346874,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005472573755835899,
      "loss": 0.5068,
      "step": 63610
    },
    {
      "epoch": 3.159829144730307,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0005472176417999405,
      "loss": 0.5486,
      "step": 63620
    },
    {
      "epoch": 3.1603258170259263,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005471779080162909,
      "loss": 0.5547,
      "step": 63630
    },
    {
      "epoch": 3.1608224893215455,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005471381742326413,
      "loss": 0.5387,
      "step": 63640
    },
    {
      "epoch": 3.161319161617165,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005470984404489918,
      "loss": 0.5184,
      "step": 63650
    },
    {
      "epoch": 3.1618158339127844,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005470587066653422,
      "loss": 0.5584,
      "step": 63660
    },
    {
      "epoch": 3.1623125062084037,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005470189728816927,
      "loss": 0.5666,
      "step": 63670
    },
    {
      "epoch": 3.162809178504023,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005469792390980432,
      "loss": 0.552,
      "step": 63680
    },
    {
      "epoch": 3.1633058507996425,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005469395053143936,
      "loss": 0.564,
      "step": 63690
    },
    {
      "epoch": 3.1638025230952618,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.000546899771530744,
      "loss": 0.5487,
      "step": 63700
    },
    {
      "epoch": 3.164299195390881,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005468600377470944,
      "loss": 0.5383,
      "step": 63710
    },
    {
      "epoch": 3.1647958676865002,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.000546820303963445,
      "loss": 0.5467,
      "step": 63720
    },
    {
      "epoch": 3.16529253998212,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0005467805701797954,
      "loss": 0.573,
      "step": 63730
    },
    {
      "epoch": 3.165789212277739,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0005467408363961458,
      "loss": 0.5421,
      "step": 63740
    },
    {
      "epoch": 3.1662858845733584,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005467011026124963,
      "loss": 0.5125,
      "step": 63750
    },
    {
      "epoch": 3.166782556868978,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005466613688288467,
      "loss": 0.5599,
      "step": 63760
    },
    {
      "epoch": 3.1672792291645973,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005466216350451972,
      "loss": 0.5077,
      "step": 63770
    },
    {
      "epoch": 3.1677759014602165,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005465819012615477,
      "loss": 0.5331,
      "step": 63780
    },
    {
      "epoch": 3.1682725737558357,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005465421674778981,
      "loss": 0.5454,
      "step": 63790
    },
    {
      "epoch": 3.1687692460514554,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005465024336942485,
      "loss": 0.5786,
      "step": 63800
    },
    {
      "epoch": 3.1692659183470746,
      "grad_norm": 0.091796875,
      "learning_rate": 0.000546462699910599,
      "loss": 0.5214,
      "step": 63810
    },
    {
      "epoch": 3.169762590642694,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005464229661269495,
      "loss": 0.5239,
      "step": 63820
    },
    {
      "epoch": 3.1702592629383135,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005463832323432999,
      "loss": 0.5442,
      "step": 63830
    },
    {
      "epoch": 3.1707559352339327,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005463434985596504,
      "loss": 0.5585,
      "step": 63840
    },
    {
      "epoch": 3.171252607529552,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005463037647760008,
      "loss": 0.5462,
      "step": 63850
    },
    {
      "epoch": 3.171749279825171,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005462640309923512,
      "loss": 0.5352,
      "step": 63860
    },
    {
      "epoch": 3.172245952120791,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005462242972087018,
      "loss": 0.5169,
      "step": 63870
    },
    {
      "epoch": 3.17274262441641,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005461845634250522,
      "loss": 0.5455,
      "step": 63880
    },
    {
      "epoch": 3.1732392967120293,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005461448296414026,
      "loss": 0.5168,
      "step": 63890
    },
    {
      "epoch": 3.173735969007649,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005461050958577531,
      "loss": 0.5427,
      "step": 63900
    },
    {
      "epoch": 3.174232641303268,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005460653620741035,
      "loss": 0.5546,
      "step": 63910
    },
    {
      "epoch": 3.1747293135988874,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005460256282904541,
      "loss": 0.5372,
      "step": 63920
    },
    {
      "epoch": 3.1752259858945067,
      "grad_norm": 0.125,
      "learning_rate": 0.0005459858945068044,
      "loss": 0.5347,
      "step": 63930
    },
    {
      "epoch": 3.1757226581901263,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005459461607231549,
      "loss": 0.5307,
      "step": 63940
    },
    {
      "epoch": 3.1762193304857456,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005459064269395054,
      "loss": 0.5004,
      "step": 63950
    },
    {
      "epoch": 3.176716002781365,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005458666931558557,
      "loss": 0.5764,
      "step": 63960
    },
    {
      "epoch": 3.177212675076984,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0005458269593722063,
      "loss": 0.5565,
      "step": 63970
    },
    {
      "epoch": 3.1777093473726037,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0005457872255885567,
      "loss": 0.5638,
      "step": 63980
    },
    {
      "epoch": 3.178206019668223,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005457474918049071,
      "loss": 0.5408,
      "step": 63990
    },
    {
      "epoch": 3.178702691963842,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005457077580212576,
      "loss": 0.5744,
      "step": 64000
    },
    {
      "epoch": 3.179199364259462,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.000545668024237608,
      "loss": 0.5473,
      "step": 64010
    },
    {
      "epoch": 3.179696036555081,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005456282904539585,
      "loss": 0.5372,
      "step": 64020
    },
    {
      "epoch": 3.1801927088507003,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.000545588556670309,
      "loss": 0.5091,
      "step": 64030
    },
    {
      "epoch": 3.1806893811463195,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005455488228866594,
      "loss": 0.5632,
      "step": 64040
    },
    {
      "epoch": 3.181186053441939,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005455090891030098,
      "loss": 0.5374,
      "step": 64050
    },
    {
      "epoch": 3.1816827257375584,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005454693553193603,
      "loss": 0.5519,
      "step": 64060
    },
    {
      "epoch": 3.1821793980331776,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005454296215357108,
      "loss": 0.5184,
      "step": 64070
    },
    {
      "epoch": 3.182676070328797,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0005453898877520613,
      "loss": 0.5471,
      "step": 64080
    },
    {
      "epoch": 3.1831727426244165,
      "grad_norm": 0.08740234375,
      "learning_rate": 0.0005453501539684117,
      "loss": 0.5274,
      "step": 64090
    },
    {
      "epoch": 3.1836694149200357,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005453104201847621,
      "loss": 0.5229,
      "step": 64100
    },
    {
      "epoch": 3.184166087215655,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005452706864011126,
      "loss": 0.5344,
      "step": 64110
    },
    {
      "epoch": 3.1846627595112746,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.000545230952617463,
      "loss": 0.5281,
      "step": 64120
    },
    {
      "epoch": 3.185159431806894,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005451912188338135,
      "loss": 0.5332,
      "step": 64130
    },
    {
      "epoch": 3.185656104102513,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.000545151485050164,
      "loss": 0.5792,
      "step": 64140
    },
    {
      "epoch": 3.1861527763981323,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005451117512665143,
      "loss": 0.5684,
      "step": 64150
    },
    {
      "epoch": 3.186649448693752,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005450720174828648,
      "loss": 0.5583,
      "step": 64160
    },
    {
      "epoch": 3.1871461209893712,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005450322836992154,
      "loss": 0.5471,
      "step": 64170
    },
    {
      "epoch": 3.1876427932849905,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005449925499155657,
      "loss": 0.5191,
      "step": 64180
    },
    {
      "epoch": 3.18813946558061,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005449528161319162,
      "loss": 0.5254,
      "step": 64190
    },
    {
      "epoch": 3.1886361378762293,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005449130823482666,
      "loss": 0.5393,
      "step": 64200
    },
    {
      "epoch": 3.1891328101718486,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.000544873348564617,
      "loss": 0.5409,
      "step": 64210
    },
    {
      "epoch": 3.189629482467468,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005448336147809676,
      "loss": 0.5351,
      "step": 64220
    },
    {
      "epoch": 3.1901261547630875,
      "grad_norm": 0.142578125,
      "learning_rate": 0.000544793880997318,
      "loss": 0.5417,
      "step": 64230
    },
    {
      "epoch": 3.1906228270587067,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005447541472136685,
      "loss": 0.5297,
      "step": 64240
    },
    {
      "epoch": 3.191119499354326,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005447144134300189,
      "loss": 0.5272,
      "step": 64250
    },
    {
      "epoch": 3.1916161716499456,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005446746796463693,
      "loss": 0.5497,
      "step": 64260
    },
    {
      "epoch": 3.192112843945565,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005446349458627199,
      "loss": 0.5246,
      "step": 64270
    },
    {
      "epoch": 3.192609516241184,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005445952120790703,
      "loss": 0.5257,
      "step": 64280
    },
    {
      "epoch": 3.1931061885368033,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005445554782954207,
      "loss": 0.5019,
      "step": 64290
    },
    {
      "epoch": 3.193602860832423,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005445157445117712,
      "loss": 0.5745,
      "step": 64300
    },
    {
      "epoch": 3.194099533128042,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0005444760107281215,
      "loss": 0.5407,
      "step": 64310
    },
    {
      "epoch": 3.1945962054236614,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.000544436276944472,
      "loss": 0.5295,
      "step": 64320
    },
    {
      "epoch": 3.1950928777192806,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005443965431608226,
      "loss": 0.5248,
      "step": 64330
    },
    {
      "epoch": 3.1955895500149003,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005443568093771729,
      "loss": 0.5247,
      "step": 64340
    },
    {
      "epoch": 3.1960862223105195,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005443170755935234,
      "loss": 0.5307,
      "step": 64350
    },
    {
      "epoch": 3.1965828946061388,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005442773418098739,
      "loss": 0.5546,
      "step": 64360
    },
    {
      "epoch": 3.197079566901758,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005442376080262244,
      "loss": 0.5415,
      "step": 64370
    },
    {
      "epoch": 3.1975762391973777,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005441978742425748,
      "loss": 0.5384,
      "step": 64380
    },
    {
      "epoch": 3.198072911492997,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005441581404589252,
      "loss": 0.5277,
      "step": 64390
    },
    {
      "epoch": 3.198569583788616,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005441184066752757,
      "loss": 0.5105,
      "step": 64400
    },
    {
      "epoch": 3.199066256084236,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005440786728916261,
      "loss": 0.526,
      "step": 64410
    },
    {
      "epoch": 3.199562928379855,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005440389391079765,
      "loss": 0.5225,
      "step": 64420
    },
    {
      "epoch": 3.2000596006754742,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005439992053243271,
      "loss": 0.5477,
      "step": 64430
    },
    {
      "epoch": 3.2005562729710935,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005439594715406775,
      "loss": 0.5536,
      "step": 64440
    },
    {
      "epoch": 3.201052945266713,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005439197377570279,
      "loss": 0.5606,
      "step": 64450
    },
    {
      "epoch": 3.2015496175623324,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005438800039733784,
      "loss": 0.5213,
      "step": 64460
    },
    {
      "epoch": 3.2020462898579516,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005438402701897289,
      "loss": 0.5197,
      "step": 64470
    },
    {
      "epoch": 3.2025429621535713,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005438005364060793,
      "loss": 0.5368,
      "step": 64480
    },
    {
      "epoch": 3.2030396344491905,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005437608026224298,
      "loss": 0.5127,
      "step": 64490
    },
    {
      "epoch": 3.2035363067448097,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005437210688387802,
      "loss": 0.5114,
      "step": 64500
    },
    {
      "epoch": 3.204032979040429,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0005436813350551306,
      "loss": 0.5162,
      "step": 64510
    },
    {
      "epoch": 3.2045296513360486,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005436416012714812,
      "loss": 0.5653,
      "step": 64520
    },
    {
      "epoch": 3.205026323631668,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0005436018674878316,
      "loss": 0.56,
      "step": 64530
    },
    {
      "epoch": 3.205522995927287,
      "grad_norm": 0.103515625,
      "learning_rate": 0.000543562133704182,
      "loss": 0.5731,
      "step": 64540
    },
    {
      "epoch": 3.2060196682229067,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005435223999205325,
      "loss": 0.5533,
      "step": 64550
    },
    {
      "epoch": 3.206516340518526,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005434826661368829,
      "loss": 0.5644,
      "step": 64560
    },
    {
      "epoch": 3.207013012814145,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0005434429323532333,
      "loss": 0.5294,
      "step": 64570
    },
    {
      "epoch": 3.2075096851097644,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005434031985695838,
      "loss": 0.5623,
      "step": 64580
    },
    {
      "epoch": 3.208006357405384,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005433634647859343,
      "loss": 0.5674,
      "step": 64590
    },
    {
      "epoch": 3.2085030297010033,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005433237310022847,
      "loss": 0.5413,
      "step": 64600
    },
    {
      "epoch": 3.2089997019966225,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005432839972186351,
      "loss": 0.517,
      "step": 64610
    },
    {
      "epoch": 3.2094963742922418,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005432442634349856,
      "loss": 0.5401,
      "step": 64620
    },
    {
      "epoch": 3.2099930465878614,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005432045296513361,
      "loss": 0.5611,
      "step": 64630
    },
    {
      "epoch": 3.2104897188834807,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005431647958676865,
      "loss": 0.5207,
      "step": 64640
    },
    {
      "epoch": 3.2109863911791,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.000543125062084037,
      "loss": 0.5277,
      "step": 64650
    },
    {
      "epoch": 3.2114830634747196,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005430853283003874,
      "loss": 0.5313,
      "step": 64660
    },
    {
      "epoch": 3.211979735770339,
      "grad_norm": 0.171875,
      "learning_rate": 0.0005430455945167378,
      "loss": 0.5264,
      "step": 64670
    },
    {
      "epoch": 3.212476408065958,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0005430058607330884,
      "loss": 0.5481,
      "step": 64680
    },
    {
      "epoch": 3.2129730803615772,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005429661269494388,
      "loss": 0.5533,
      "step": 64690
    },
    {
      "epoch": 3.213469752657197,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005429263931657892,
      "loss": 0.5321,
      "step": 64700
    },
    {
      "epoch": 3.213966424952816,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005428866593821397,
      "loss": 0.5544,
      "step": 64710
    },
    {
      "epoch": 3.2144630972484354,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005428469255984901,
      "loss": 0.5066,
      "step": 64720
    },
    {
      "epoch": 3.2149597695440546,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005428071918148406,
      "loss": 0.5334,
      "step": 64730
    },
    {
      "epoch": 3.2154564418396743,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0005427674580311911,
      "loss": 0.5496,
      "step": 64740
    },
    {
      "epoch": 3.2159531141352935,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005427277242475415,
      "loss": 0.5501,
      "step": 64750
    },
    {
      "epoch": 3.2164497864309127,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005426879904638919,
      "loss": 0.5431,
      "step": 64760
    },
    {
      "epoch": 3.2169464587265324,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005426482566802424,
      "loss": 0.5598,
      "step": 64770
    },
    {
      "epoch": 3.2174431310221516,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0005426085228965929,
      "loss": 0.5536,
      "step": 64780
    },
    {
      "epoch": 3.217939803317771,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005425687891129433,
      "loss": 0.5343,
      "step": 64790
    },
    {
      "epoch": 3.21843647561339,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005425290553292937,
      "loss": 0.5431,
      "step": 64800
    },
    {
      "epoch": 3.2189331479090098,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005424893215456442,
      "loss": 0.5393,
      "step": 64810
    },
    {
      "epoch": 3.219429820204629,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005424495877619948,
      "loss": 0.5208,
      "step": 64820
    },
    {
      "epoch": 3.219926492500248,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0005424098539783451,
      "loss": 0.5303,
      "step": 64830
    },
    {
      "epoch": 3.220423164795868,
      "grad_norm": 0.1875,
      "learning_rate": 0.0005423701201946956,
      "loss": 0.5394,
      "step": 64840
    },
    {
      "epoch": 3.220919837091487,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.000542330386411046,
      "loss": 0.5353,
      "step": 64850
    },
    {
      "epoch": 3.2214165093871063,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005422906526273964,
      "loss": 0.5584,
      "step": 64860
    },
    {
      "epoch": 3.2219131816827256,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005422509188437469,
      "loss": 0.5353,
      "step": 64870
    },
    {
      "epoch": 3.2224098539783452,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005422111850600974,
      "loss": 0.524,
      "step": 64880
    },
    {
      "epoch": 3.2229065262739645,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005421714512764478,
      "loss": 0.5158,
      "step": 64890
    },
    {
      "epoch": 3.2234031985695837,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005421317174927983,
      "loss": 0.537,
      "step": 64900
    },
    {
      "epoch": 3.2238998708652034,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005420919837091487,
      "loss": 0.511,
      "step": 64910
    },
    {
      "epoch": 3.2243965431608226,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005420522499254991,
      "loss": 0.5867,
      "step": 64920
    },
    {
      "epoch": 3.224893215456442,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005420125161418497,
      "loss": 0.5472,
      "step": 64930
    },
    {
      "epoch": 3.225389887752061,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005419727823582001,
      "loss": 0.5355,
      "step": 64940
    },
    {
      "epoch": 3.2258865600476807,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005419330485745505,
      "loss": 0.5414,
      "step": 64950
    },
    {
      "epoch": 3.2263832323433,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.000541893314790901,
      "loss": 0.5407,
      "step": 64960
    },
    {
      "epoch": 3.226879904638919,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005418535810072514,
      "loss": 0.5396,
      "step": 64970
    },
    {
      "epoch": 3.2273765769345384,
      "grad_norm": 0.09375,
      "learning_rate": 0.000541813847223602,
      "loss": 0.5581,
      "step": 64980
    },
    {
      "epoch": 3.227873249230158,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005417741134399523,
      "loss": 0.5349,
      "step": 64990
    },
    {
      "epoch": 3.2283699215257773,
      "grad_norm": 0.091796875,
      "learning_rate": 0.0005417343796563028,
      "loss": 0.5391,
      "step": 65000
    },
    {
      "epoch": 3.2288665938213965,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005416946458726533,
      "loss": 0.5329,
      "step": 65010
    },
    {
      "epoch": 3.229363266117016,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005416549120890036,
      "loss": 0.5257,
      "step": 65020
    },
    {
      "epoch": 3.2298599384126354,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005416151783053542,
      "loss": 0.5322,
      "step": 65030
    },
    {
      "epoch": 3.2303566107082546,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0005415754445217047,
      "loss": 0.5467,
      "step": 65040
    },
    {
      "epoch": 3.230853283003874,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.000541535710738055,
      "loss": 0.5571,
      "step": 65050
    },
    {
      "epoch": 3.2313499552994935,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005414959769544055,
      "loss": 0.5597,
      "step": 65060
    },
    {
      "epoch": 3.2318466275951128,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005414562431707559,
      "loss": 0.5388,
      "step": 65070
    },
    {
      "epoch": 3.232343299890732,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005414165093871064,
      "loss": 0.5341,
      "step": 65080
    },
    {
      "epoch": 3.232839972186351,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005413767756034569,
      "loss": 0.5413,
      "step": 65090
    },
    {
      "epoch": 3.233336644481971,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005413370418198073,
      "loss": 0.5701,
      "step": 65100
    },
    {
      "epoch": 3.23383331677759,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005412973080361578,
      "loss": 0.5333,
      "step": 65110
    },
    {
      "epoch": 3.2343299890732093,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005412575742525082,
      "loss": 0.5367,
      "step": 65120
    },
    {
      "epoch": 3.234826661368829,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005412178404688587,
      "loss": 0.5415,
      "step": 65130
    },
    {
      "epoch": 3.2353233336644482,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005411781066852092,
      "loss": 0.5212,
      "step": 65140
    },
    {
      "epoch": 3.2358200059600675,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005411383729015596,
      "loss": 0.529,
      "step": 65150
    },
    {
      "epoch": 3.2363166782556867,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.00054109863911791,
      "loss": 0.5667,
      "step": 65160
    },
    {
      "epoch": 3.2368133505513064,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0005410589053342605,
      "loss": 0.5229,
      "step": 65170
    },
    {
      "epoch": 3.2373100228469256,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005410191715506109,
      "loss": 0.5514,
      "step": 65180
    },
    {
      "epoch": 3.237806695142545,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005409794377669614,
      "loss": 0.5677,
      "step": 65190
    },
    {
      "epoch": 3.2383033674381645,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005409397039833119,
      "loss": 0.5259,
      "step": 65200
    },
    {
      "epoch": 3.2388000397337837,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005408999701996622,
      "loss": 0.5209,
      "step": 65210
    },
    {
      "epoch": 3.239296712029403,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005408602364160127,
      "loss": 0.532,
      "step": 65220
    },
    {
      "epoch": 3.239793384325022,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005408205026323633,
      "loss": 0.5373,
      "step": 65230
    },
    {
      "epoch": 3.240290056620642,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0005407807688487136,
      "loss": 0.5476,
      "step": 65240
    },
    {
      "epoch": 3.240786728916261,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005407410350650641,
      "loss": 0.5462,
      "step": 65250
    },
    {
      "epoch": 3.2412834012118803,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005407013012814145,
      "loss": 0.5377,
      "step": 65260
    },
    {
      "epoch": 3.2417800735075,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.000540661567497765,
      "loss": 0.557,
      "step": 65270
    },
    {
      "epoch": 3.242276745803119,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005406218337141155,
      "loss": 0.5376,
      "step": 65280
    },
    {
      "epoch": 3.2427734180987384,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005405820999304659,
      "loss": 0.5319,
      "step": 65290
    },
    {
      "epoch": 3.2432700903943577,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005405423661468164,
      "loss": 0.536,
      "step": 65300
    },
    {
      "epoch": 3.2437667626899773,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005405026323631668,
      "loss": 0.5568,
      "step": 65310
    },
    {
      "epoch": 3.2442634349855966,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005404628985795172,
      "loss": 0.5463,
      "step": 65320
    },
    {
      "epoch": 3.2447601072812158,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005404231647958678,
      "loss": 0.5409,
      "step": 65330
    },
    {
      "epoch": 3.245256779576835,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0005403834310122182,
      "loss": 0.5473,
      "step": 65340
    },
    {
      "epoch": 3.2457534518724547,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005403436972285686,
      "loss": 0.5728,
      "step": 65350
    },
    {
      "epoch": 3.246250124168074,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005403039634449191,
      "loss": 0.5339,
      "step": 65360
    },
    {
      "epoch": 3.246746796463693,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0005402642296612694,
      "loss": 0.57,
      "step": 65370
    },
    {
      "epoch": 3.247243468759313,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.00054022449587762,
      "loss": 0.5259,
      "step": 65380
    },
    {
      "epoch": 3.247740141054932,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005401847620939705,
      "loss": 0.5278,
      "step": 65390
    },
    {
      "epoch": 3.2482368133505513,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005401450283103208,
      "loss": 0.5341,
      "step": 65400
    },
    {
      "epoch": 3.2487334856461705,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005401052945266713,
      "loss": 0.5482,
      "step": 65410
    },
    {
      "epoch": 3.24923015794179,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005400655607430218,
      "loss": 0.5626,
      "step": 65420
    },
    {
      "epoch": 3.2497268302374094,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0005400258269593723,
      "loss": 0.5739,
      "step": 65430
    },
    {
      "epoch": 3.2502235025330286,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005399860931757227,
      "loss": 0.5266,
      "step": 65440
    },
    {
      "epoch": 3.250720174828648,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0005399463593920731,
      "loss": 0.541,
      "step": 65450
    },
    {
      "epoch": 3.2512168471242675,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005399066256084236,
      "loss": 0.5476,
      "step": 65460
    },
    {
      "epoch": 3.2517135194198867,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.000539866891824774,
      "loss": 0.5393,
      "step": 65470
    },
    {
      "epoch": 3.252210191715506,
      "grad_norm": 0.125,
      "learning_rate": 0.0005398271580411245,
      "loss": 0.5299,
      "step": 65480
    },
    {
      "epoch": 3.2527068640111256,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.000539787424257475,
      "loss": 0.5222,
      "step": 65490
    },
    {
      "epoch": 3.253203536306745,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005397476904738254,
      "loss": 0.544,
      "step": 65500
    },
    {
      "epoch": 3.253700208602364,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0005397079566901758,
      "loss": 0.547,
      "step": 65510
    },
    {
      "epoch": 3.2541968808979833,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0005396682229065263,
      "loss": 0.5586,
      "step": 65520
    },
    {
      "epoch": 3.254693553193603,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005396284891228768,
      "loss": 0.55,
      "step": 65530
    },
    {
      "epoch": 3.255190225489222,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005395887553392272,
      "loss": 0.5558,
      "step": 65540
    },
    {
      "epoch": 3.2556868977848414,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0005395490215555777,
      "loss": 0.5421,
      "step": 65550
    },
    {
      "epoch": 3.256183570080461,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005395092877719281,
      "loss": 0.5712,
      "step": 65560
    },
    {
      "epoch": 3.2566802423760803,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005394695539882785,
      "loss": 0.5159,
      "step": 65570
    },
    {
      "epoch": 3.2571769146716996,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0005394298202046291,
      "loss": 0.545,
      "step": 65580
    },
    {
      "epoch": 3.257673586967319,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005393900864209795,
      "loss": 0.535,
      "step": 65590
    },
    {
      "epoch": 3.2581702592629385,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005393503526373299,
      "loss": 0.5352,
      "step": 65600
    },
    {
      "epoch": 3.2586669315585577,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005393106188536804,
      "loss": 0.5546,
      "step": 65610
    },
    {
      "epoch": 3.259163603854177,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0005392708850700308,
      "loss": 0.5228,
      "step": 65620
    },
    {
      "epoch": 3.2596602761497966,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005392311512863813,
      "loss": 0.5123,
      "step": 65630
    },
    {
      "epoch": 3.260156948445416,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0005391914175027317,
      "loss": 0.5049,
      "step": 65640
    },
    {
      "epoch": 3.260653620741035,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005391516837190822,
      "loss": 0.5455,
      "step": 65650
    },
    {
      "epoch": 3.2611502930366543,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005391119499354326,
      "loss": 0.5342,
      "step": 65660
    },
    {
      "epoch": 3.261646965332274,
      "grad_norm": 0.171875,
      "learning_rate": 0.000539072216151783,
      "loss": 0.5565,
      "step": 65670
    },
    {
      "epoch": 3.262143637627893,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005390324823681336,
      "loss": 0.5447,
      "step": 65680
    },
    {
      "epoch": 3.2626403099235124,
      "grad_norm": 0.130859375,
      "learning_rate": 0.000538992748584484,
      "loss": 0.5521,
      "step": 65690
    },
    {
      "epoch": 3.263136982219132,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005389530148008344,
      "loss": 0.5454,
      "step": 65700
    },
    {
      "epoch": 3.2636336545147513,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0005389132810171849,
      "loss": 0.5164,
      "step": 65710
    },
    {
      "epoch": 3.2641303268103705,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0005388735472335353,
      "loss": 0.5159,
      "step": 65720
    },
    {
      "epoch": 3.2646269991059897,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005388338134498857,
      "loss": 0.5367,
      "step": 65730
    },
    {
      "epoch": 3.265123671401609,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0005387940796662363,
      "loss": 0.5297,
      "step": 65740
    },
    {
      "epoch": 3.2656203436972286,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005387543458825867,
      "loss": 0.5748,
      "step": 65750
    },
    {
      "epoch": 3.266117015992848,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005387146120989371,
      "loss": 0.5504,
      "step": 65760
    },
    {
      "epoch": 3.266613688288467,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005386748783152876,
      "loss": 0.4994,
      "step": 65770
    },
    {
      "epoch": 3.2671103605840868,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.000538635144531638,
      "loss": 0.5118,
      "step": 65780
    },
    {
      "epoch": 3.267607032879706,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005385954107479885,
      "loss": 0.529,
      "step": 65790
    },
    {
      "epoch": 3.2681037051753252,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.000538555676964339,
      "loss": 0.5371,
      "step": 65800
    },
    {
      "epoch": 3.2686003774709445,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005385159431806894,
      "loss": 0.5454,
      "step": 65810
    },
    {
      "epoch": 3.269097049766564,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005384762093970398,
      "loss": 0.5322,
      "step": 65820
    },
    {
      "epoch": 3.2695937220621833,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0005384364756133904,
      "loss": 0.561,
      "step": 65830
    },
    {
      "epoch": 3.2700903943578026,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005383967418297408,
      "loss": 0.5195,
      "step": 65840
    },
    {
      "epoch": 3.2705870666534222,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005383570080460912,
      "loss": 0.5318,
      "step": 65850
    },
    {
      "epoch": 3.2710837389490415,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005383172742624416,
      "loss": 0.5518,
      "step": 65860
    },
    {
      "epoch": 3.2715804112446607,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005382775404787921,
      "loss": 0.5417,
      "step": 65870
    },
    {
      "epoch": 3.27207708354028,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0005382378066951427,
      "loss": 0.5254,
      "step": 65880
    },
    {
      "epoch": 3.2725737558358996,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.000538198072911493,
      "loss": 0.5294,
      "step": 65890
    },
    {
      "epoch": 3.273070428131519,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0005381583391278435,
      "loss": 0.5571,
      "step": 65900
    },
    {
      "epoch": 3.273567100427138,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0005381186053441939,
      "loss": 0.5311,
      "step": 65910
    },
    {
      "epoch": 3.2740637727227577,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005380788715605443,
      "loss": 0.5349,
      "step": 65920
    },
    {
      "epoch": 3.274560445018377,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005380391377768948,
      "loss": 0.5339,
      "step": 65930
    },
    {
      "epoch": 3.275057117313996,
      "grad_norm": 0.125,
      "learning_rate": 0.0005379994039932453,
      "loss": 0.5454,
      "step": 65940
    },
    {
      "epoch": 3.2755537896096154,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005379596702095957,
      "loss": 0.5472,
      "step": 65950
    },
    {
      "epoch": 3.276050461905235,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0005379199364259462,
      "loss": 0.5065,
      "step": 65960
    },
    {
      "epoch": 3.2765471342008543,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005378802026422966,
      "loss": 0.5536,
      "step": 65970
    },
    {
      "epoch": 3.2770438064964735,
      "grad_norm": 0.16796875,
      "learning_rate": 0.000537840468858647,
      "loss": 0.5362,
      "step": 65980
    },
    {
      "epoch": 3.277540478792093,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005378007350749976,
      "loss": 0.5506,
      "step": 65990
    },
    {
      "epoch": 3.2780371510877124,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.000537761001291348,
      "loss": 0.5296,
      "step": 66000
    },
    {
      "epoch": 3.2785338233833317,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0005377212675076985,
      "loss": 0.5581,
      "step": 66010
    },
    {
      "epoch": 3.279030495678951,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005376815337240489,
      "loss": 0.5496,
      "step": 66020
    },
    {
      "epoch": 3.2795271679745706,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005376417999403993,
      "loss": 0.5502,
      "step": 66030
    },
    {
      "epoch": 3.28002384027019,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0005376020661567499,
      "loss": 0.5442,
      "step": 66040
    },
    {
      "epoch": 3.280520512565809,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005375623323731002,
      "loss": 0.5387,
      "step": 66050
    },
    {
      "epoch": 3.2810171848614282,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005375225985894507,
      "loss": 0.5739,
      "step": 66060
    },
    {
      "epoch": 3.281513857157048,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005374828648058012,
      "loss": 0.5438,
      "step": 66070
    },
    {
      "epoch": 3.282010529452667,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005374431310221515,
      "loss": 0.5437,
      "step": 66080
    },
    {
      "epoch": 3.2825072017482864,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005374033972385021,
      "loss": 0.5223,
      "step": 66090
    },
    {
      "epoch": 3.2830038740439056,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005373636634548526,
      "loss": 0.5179,
      "step": 66100
    },
    {
      "epoch": 3.2835005463395253,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005373239296712029,
      "loss": 0.5414,
      "step": 66110
    },
    {
      "epoch": 3.2839972186351445,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005372841958875534,
      "loss": 0.5291,
      "step": 66120
    },
    {
      "epoch": 3.2844938909307637,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0005372444621039038,
      "loss": 0.5523,
      "step": 66130
    },
    {
      "epoch": 3.2849905632263834,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005372047283202543,
      "loss": 0.5257,
      "step": 66140
    },
    {
      "epoch": 3.2854872355220026,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0005371649945366048,
      "loss": 0.5845,
      "step": 66150
    },
    {
      "epoch": 3.285983907817622,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005371252607529552,
      "loss": 0.5372,
      "step": 66160
    },
    {
      "epoch": 3.286480580113241,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005370855269693057,
      "loss": 0.5626,
      "step": 66170
    },
    {
      "epoch": 3.2869772524088607,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005370457931856561,
      "loss": 0.5303,
      "step": 66180
    },
    {
      "epoch": 3.28747392470448,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005370060594020066,
      "loss": 0.5337,
      "step": 66190
    },
    {
      "epoch": 3.287970597000099,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005369663256183571,
      "loss": 0.5547,
      "step": 66200
    },
    {
      "epoch": 3.288467269295719,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005369265918347075,
      "loss": 0.5274,
      "step": 66210
    },
    {
      "epoch": 3.288963941591338,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005368868580510579,
      "loss": 0.5411,
      "step": 66220
    },
    {
      "epoch": 3.2894606138869573,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005368471242674084,
      "loss": 0.5588,
      "step": 66230
    },
    {
      "epoch": 3.2899572861825765,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005368073904837588,
      "loss": 0.5181,
      "step": 66240
    },
    {
      "epoch": 3.290453958478196,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0005367676567001093,
      "loss": 0.5378,
      "step": 66250
    },
    {
      "epoch": 3.2909506307738154,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0005367279229164598,
      "loss": 0.5639,
      "step": 66260
    },
    {
      "epoch": 3.2914473030694347,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005366881891328101,
      "loss": 0.5596,
      "step": 66270
    },
    {
      "epoch": 3.2919439753650543,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005366484553491606,
      "loss": 0.557,
      "step": 66280
    },
    {
      "epoch": 3.2924406476606736,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005366087215655112,
      "loss": 0.55,
      "step": 66290
    },
    {
      "epoch": 3.292937319956293,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005365689877818615,
      "loss": 0.5637,
      "step": 66300
    },
    {
      "epoch": 3.293433992251912,
      "grad_norm": 0.134765625,
      "learning_rate": 0.000536529253998212,
      "loss": 0.5482,
      "step": 66310
    },
    {
      "epoch": 3.2939306645475317,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005364895202145624,
      "loss": 0.5404,
      "step": 66320
    },
    {
      "epoch": 3.294427336843151,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0005364497864309129,
      "loss": 0.5382,
      "step": 66330
    },
    {
      "epoch": 3.29492400913877,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005364100526472634,
      "loss": 0.5647,
      "step": 66340
    },
    {
      "epoch": 3.29542068143439,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005363703188636138,
      "loss": 0.5365,
      "step": 66350
    },
    {
      "epoch": 3.295917353730009,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0005363305850799643,
      "loss": 0.5564,
      "step": 66360
    },
    {
      "epoch": 3.2964140260256283,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005362908512963147,
      "loss": 0.531,
      "step": 66370
    },
    {
      "epoch": 3.2969106983212475,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0005362511175126651,
      "loss": 0.5241,
      "step": 66380
    },
    {
      "epoch": 3.297407370616867,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005362113837290157,
      "loss": 0.528,
      "step": 66390
    },
    {
      "epoch": 3.2979040429124864,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0005361716499453661,
      "loss": 0.5528,
      "step": 66400
    },
    {
      "epoch": 3.2984007152081056,
      "grad_norm": 0.125,
      "learning_rate": 0.0005361319161617165,
      "loss": 0.5735,
      "step": 66410
    },
    {
      "epoch": 3.298897387503725,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.000536092182378067,
      "loss": 0.5501,
      "step": 66420
    },
    {
      "epoch": 3.2993940597993445,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005360524485944174,
      "loss": 0.5369,
      "step": 66430
    },
    {
      "epoch": 3.2998907320949638,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005360127148107679,
      "loss": 0.5435,
      "step": 66440
    },
    {
      "epoch": 3.300387404390583,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005359729810271184,
      "loss": 0.5274,
      "step": 66450
    },
    {
      "epoch": 3.300884076686202,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005359332472434688,
      "loss": 0.5446,
      "step": 66460
    },
    {
      "epoch": 3.301380748981822,
      "grad_norm": 0.15625,
      "learning_rate": 0.0005358935134598192,
      "loss": 0.5579,
      "step": 66470
    },
    {
      "epoch": 3.301877421277441,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005358537796761697,
      "loss": 0.5127,
      "step": 66480
    },
    {
      "epoch": 3.3023740935730603,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005358140458925202,
      "loss": 0.5156,
      "step": 66490
    },
    {
      "epoch": 3.30287076586868,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005357743121088706,
      "loss": 0.5647,
      "step": 66500
    },
    {
      "epoch": 3.3033674381642992,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.000535734578325221,
      "loss": 0.5426,
      "step": 66510
    },
    {
      "epoch": 3.3038641104599185,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005356948445415715,
      "loss": 0.5492,
      "step": 66520
    },
    {
      "epoch": 3.3043607827555377,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005356551107579219,
      "loss": 0.5311,
      "step": 66530
    },
    {
      "epoch": 3.3048574550511574,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005356153769742724,
      "loss": 0.5401,
      "step": 66540
    },
    {
      "epoch": 3.3053541273467766,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0005355756431906229,
      "loss": 0.5331,
      "step": 66550
    },
    {
      "epoch": 3.305850799642396,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005355359094069733,
      "loss": 0.5468,
      "step": 66560
    },
    {
      "epoch": 3.3063474719380155,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005354961756233237,
      "loss": 0.5447,
      "step": 66570
    },
    {
      "epoch": 3.3068441442336347,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005354564418396742,
      "loss": 0.5458,
      "step": 66580
    },
    {
      "epoch": 3.307340816529254,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005354167080560247,
      "loss": 0.5301,
      "step": 66590
    },
    {
      "epoch": 3.307837488824873,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0005353769742723751,
      "loss": 0.5473,
      "step": 66600
    },
    {
      "epoch": 3.308334161120493,
      "grad_norm": 0.08984375,
      "learning_rate": 0.0005353372404887256,
      "loss": 0.5619,
      "step": 66610
    },
    {
      "epoch": 3.308830833416112,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.000535297506705076,
      "loss": 0.5796,
      "step": 66620
    },
    {
      "epoch": 3.3093275057117313,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005352577729214264,
      "loss": 0.5296,
      "step": 66630
    },
    {
      "epoch": 3.309824178007351,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.000535218039137777,
      "loss": 0.5319,
      "step": 66640
    },
    {
      "epoch": 3.31032085030297,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0005351783053541274,
      "loss": 0.5339,
      "step": 66650
    },
    {
      "epoch": 3.3108175225985894,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005351385715704778,
      "loss": 0.535,
      "step": 66660
    },
    {
      "epoch": 3.3113141948942086,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005350988377868283,
      "loss": 0.5615,
      "step": 66670
    },
    {
      "epoch": 3.3118108671898283,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005350591040031787,
      "loss": 0.5534,
      "step": 66680
    },
    {
      "epoch": 3.3123075394854475,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005350193702195292,
      "loss": 0.5532,
      "step": 66690
    },
    {
      "epoch": 3.3128042117810668,
      "grad_norm": 0.125,
      "learning_rate": 0.0005349796364358797,
      "loss": 0.5475,
      "step": 66700
    },
    {
      "epoch": 3.3133008840766864,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005349399026522301,
      "loss": 0.5217,
      "step": 66710
    },
    {
      "epoch": 3.3137975563723057,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005349001688685805,
      "loss": 0.5623,
      "step": 66720
    },
    {
      "epoch": 3.314294228667925,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005348604350849309,
      "loss": 0.5609,
      "step": 66730
    },
    {
      "epoch": 3.314790900963544,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005348207013012815,
      "loss": 0.5325,
      "step": 66740
    },
    {
      "epoch": 3.315287573259164,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005347809675176319,
      "loss": 0.516,
      "step": 66750
    },
    {
      "epoch": 3.315784245554783,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005347412337339823,
      "loss": 0.5524,
      "step": 66760
    },
    {
      "epoch": 3.3162809178504022,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005347014999503328,
      "loss": 0.549,
      "step": 66770
    },
    {
      "epoch": 3.3167775901460215,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005346617661666832,
      "loss": 0.5395,
      "step": 66780
    },
    {
      "epoch": 3.317274262441641,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005346220323830337,
      "loss": 0.5433,
      "step": 66790
    },
    {
      "epoch": 3.3177709347372604,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005345822985993842,
      "loss": 0.526,
      "step": 66800
    },
    {
      "epoch": 3.3182676070328796,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005345425648157346,
      "loss": 0.5638,
      "step": 66810
    },
    {
      "epoch": 3.318764279328499,
      "grad_norm": 0.162109375,
      "learning_rate": 0.000534502831032085,
      "loss": 0.5345,
      "step": 66820
    },
    {
      "epoch": 3.3192609516241185,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005344630972484355,
      "loss": 0.5446,
      "step": 66830
    },
    {
      "epoch": 3.3197576239197377,
      "grad_norm": 0.14453125,
      "learning_rate": 0.000534423363464786,
      "loss": 0.5389,
      "step": 66840
    },
    {
      "epoch": 3.320254296215357,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005343836296811364,
      "loss": 0.5606,
      "step": 66850
    },
    {
      "epoch": 3.3207509685109766,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005343438958974869,
      "loss": 0.528,
      "step": 66860
    },
    {
      "epoch": 3.321247640806596,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005343041621138373,
      "loss": 0.556,
      "step": 66870
    },
    {
      "epoch": 3.321744313102215,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0005342644283301877,
      "loss": 0.5319,
      "step": 66880
    },
    {
      "epoch": 3.3222409853978343,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005342246945465383,
      "loss": 0.523,
      "step": 66890
    },
    {
      "epoch": 3.322737657693454,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005341849607628887,
      "loss": 0.5343,
      "step": 66900
    },
    {
      "epoch": 3.323234329989073,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005341452269792392,
      "loss": 0.5325,
      "step": 66910
    },
    {
      "epoch": 3.3237310022846924,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0005341054931955895,
      "loss": 0.5168,
      "step": 66920
    },
    {
      "epoch": 3.324227674580312,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.00053406575941194,
      "loss": 0.5139,
      "step": 66930
    },
    {
      "epoch": 3.3247243468759313,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005340260256282906,
      "loss": 0.5396,
      "step": 66940
    },
    {
      "epoch": 3.3252210191715506,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005339862918446409,
      "loss": 0.5139,
      "step": 66950
    },
    {
      "epoch": 3.32571769146717,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005339465580609914,
      "loss": 0.5107,
      "step": 66960
    },
    {
      "epoch": 3.3262143637627894,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0005339068242773419,
      "loss": 0.5205,
      "step": 66970
    },
    {
      "epoch": 3.3267110360584087,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005338670904936922,
      "loss": 0.5306,
      "step": 66980
    },
    {
      "epoch": 3.327207708354028,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005338273567100428,
      "loss": 0.5516,
      "step": 66990
    },
    {
      "epoch": 3.3277043806496476,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005337876229263932,
      "loss": 0.5457,
      "step": 67000
    },
    {
      "epoch": 3.328201052945267,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005337478891427436,
      "loss": 0.5139,
      "step": 67010
    },
    {
      "epoch": 3.328697725240886,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005337081553590941,
      "loss": 0.5391,
      "step": 67020
    },
    {
      "epoch": 3.3291943975365053,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0005336684215754445,
      "loss": 0.5683,
      "step": 67030
    },
    {
      "epoch": 3.329691069832125,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.000533628687791795,
      "loss": 0.5214,
      "step": 67040
    },
    {
      "epoch": 3.330187742127744,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005335889540081455,
      "loss": 0.5251,
      "step": 67050
    },
    {
      "epoch": 3.3306844144233634,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005335492202244959,
      "loss": 0.5435,
      "step": 67060
    },
    {
      "epoch": 3.331181086718983,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0005335094864408464,
      "loss": 0.5237,
      "step": 67070
    },
    {
      "epoch": 3.3316777590146023,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005334697526571968,
      "loss": 0.5006,
      "step": 67080
    },
    {
      "epoch": 3.3321744313102215,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005334300188735472,
      "loss": 0.5426,
      "step": 67090
    },
    {
      "epoch": 3.3326711036058407,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005333902850898978,
      "loss": 0.5197,
      "step": 67100
    },
    {
      "epoch": 3.3331677759014604,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005333505513062481,
      "loss": 0.5393,
      "step": 67110
    },
    {
      "epoch": 3.3336644481970796,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005333108175225986,
      "loss": 0.5338,
      "step": 67120
    },
    {
      "epoch": 3.334161120492699,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005332710837389491,
      "loss": 0.554,
      "step": 67130
    },
    {
      "epoch": 3.334657792788318,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005332313499552994,
      "loss": 0.536,
      "step": 67140
    },
    {
      "epoch": 3.3351544650839378,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.00053319161617165,
      "loss": 0.5317,
      "step": 67150
    },
    {
      "epoch": 3.335651137379557,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0005331518823880005,
      "loss": 0.5181,
      "step": 67160
    },
    {
      "epoch": 3.336147809675176,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0005331121486043508,
      "loss": 0.5273,
      "step": 67170
    },
    {
      "epoch": 3.3366444819707954,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005330724148207013,
      "loss": 0.5372,
      "step": 67180
    },
    {
      "epoch": 3.337141154266415,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005330326810370517,
      "loss": 0.5223,
      "step": 67190
    },
    {
      "epoch": 3.3376378265620343,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0005329929472534023,
      "loss": 0.5198,
      "step": 67200
    },
    {
      "epoch": 3.3381344988576536,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005329532134697527,
      "loss": 0.5214,
      "step": 67210
    },
    {
      "epoch": 3.3386311711532732,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005329134796861031,
      "loss": 0.5321,
      "step": 67220
    },
    {
      "epoch": 3.3391278434488925,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005328737459024536,
      "loss": 0.553,
      "step": 67230
    },
    {
      "epoch": 3.3396245157445117,
      "grad_norm": 0.109375,
      "learning_rate": 0.000532834012118804,
      "loss": 0.5799,
      "step": 67240
    },
    {
      "epoch": 3.340121188040131,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005327942783351545,
      "loss": 0.5631,
      "step": 67250
    },
    {
      "epoch": 3.3406178603357506,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.000532754544551505,
      "loss": 0.5336,
      "step": 67260
    },
    {
      "epoch": 3.34111453263137,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005327148107678554,
      "loss": 0.527,
      "step": 67270
    },
    {
      "epoch": 3.341611204926989,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005326750769842058,
      "loss": 0.5445,
      "step": 67280
    },
    {
      "epoch": 3.3421078772226087,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005326353432005564,
      "loss": 0.5429,
      "step": 67290
    },
    {
      "epoch": 3.342604549518228,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005325956094169068,
      "loss": 0.5717,
      "step": 67300
    },
    {
      "epoch": 3.343101221813847,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005325558756332572,
      "loss": 0.5346,
      "step": 67310
    },
    {
      "epoch": 3.3435978941094664,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005325161418496077,
      "loss": 0.518,
      "step": 67320
    },
    {
      "epoch": 3.344094566405086,
      "grad_norm": 0.169921875,
      "learning_rate": 0.000532476408065958,
      "loss": 0.5257,
      "step": 67330
    },
    {
      "epoch": 3.3445912387007053,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005324366742823085,
      "loss": 0.5612,
      "step": 67340
    },
    {
      "epoch": 3.3450879109963245,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005323969404986591,
      "loss": 0.5445,
      "step": 67350
    },
    {
      "epoch": 3.345584583291944,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005323572067150095,
      "loss": 0.5257,
      "step": 67360
    },
    {
      "epoch": 3.3460812555875634,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005323174729313599,
      "loss": 0.5268,
      "step": 67370
    },
    {
      "epoch": 3.3465779278831826,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005322777391477103,
      "loss": 0.5465,
      "step": 67380
    },
    {
      "epoch": 3.347074600178802,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0005322380053640608,
      "loss": 0.5473,
      "step": 67390
    },
    {
      "epoch": 3.3475712724744215,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005321982715804113,
      "loss": 0.5397,
      "step": 67400
    },
    {
      "epoch": 3.3480679447700408,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005321585377967617,
      "loss": 0.5467,
      "step": 67410
    },
    {
      "epoch": 3.34856461706566,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005321188040131122,
      "loss": 0.5278,
      "step": 67420
    },
    {
      "epoch": 3.3490612893612797,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005320790702294626,
      "loss": 0.5759,
      "step": 67430
    },
    {
      "epoch": 3.349557961656899,
      "grad_norm": 0.1015625,
      "learning_rate": 0.000532039336445813,
      "loss": 0.5251,
      "step": 67440
    },
    {
      "epoch": 3.350054633952518,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0005319996026621636,
      "loss": 0.5322,
      "step": 67450
    },
    {
      "epoch": 3.3505513062481374,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.000531959868878514,
      "loss": 0.5063,
      "step": 67460
    },
    {
      "epoch": 3.351047978543757,
      "grad_norm": 0.15625,
      "learning_rate": 0.0005319201350948644,
      "loss": 0.5257,
      "step": 67470
    },
    {
      "epoch": 3.3515446508393762,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0005318804013112149,
      "loss": 0.5474,
      "step": 67480
    },
    {
      "epoch": 3.3520413231349955,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005318406675275653,
      "loss": 0.5393,
      "step": 67490
    },
    {
      "epoch": 3.3525379954306147,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0005318009337439158,
      "loss": 0.5335,
      "step": 67500
    },
    {
      "epoch": 3.3530346677262344,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0005317611999602663,
      "loss": 0.5153,
      "step": 67510
    },
    {
      "epoch": 3.3535313400218536,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005317214661766167,
      "loss": 0.528,
      "step": 67520
    },
    {
      "epoch": 3.354028012317473,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005316817323929671,
      "loss": 0.5356,
      "step": 67530
    },
    {
      "epoch": 3.354524684613092,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0005316419986093176,
      "loss": 0.5734,
      "step": 67540
    },
    {
      "epoch": 3.3550213569087117,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005316022648256681,
      "loss": 0.5431,
      "step": 67550
    },
    {
      "epoch": 3.355518029204331,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005315625310420185,
      "loss": 0.5309,
      "step": 67560
    },
    {
      "epoch": 3.35601470149995,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.000531522797258369,
      "loss": 0.5435,
      "step": 67570
    },
    {
      "epoch": 3.35651137379557,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005314830634747194,
      "loss": 0.552,
      "step": 67580
    },
    {
      "epoch": 3.357008046091189,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005314433296910698,
      "loss": 0.5352,
      "step": 67590
    },
    {
      "epoch": 3.3575047183868083,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005314035959074203,
      "loss": 0.5418,
      "step": 67600
    },
    {
      "epoch": 3.3580013906824275,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0005313638621237708,
      "loss": 0.5286,
      "step": 67610
    },
    {
      "epoch": 3.358498062978047,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005313241283401212,
      "loss": 0.5356,
      "step": 67620
    },
    {
      "epoch": 3.3589947352736664,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005312843945564716,
      "loss": 0.5358,
      "step": 67630
    },
    {
      "epoch": 3.3594914075692857,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005312446607728221,
      "loss": 0.5482,
      "step": 67640
    },
    {
      "epoch": 3.3599880798649053,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0005312049269891726,
      "loss": 0.5531,
      "step": 67650
    },
    {
      "epoch": 3.3604847521605246,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.000531165193205523,
      "loss": 0.5543,
      "step": 67660
    },
    {
      "epoch": 3.360981424456144,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005311254594218735,
      "loss": 0.5504,
      "step": 67670
    },
    {
      "epoch": 3.361478096751763,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005310857256382239,
      "loss": 0.5481,
      "step": 67680
    },
    {
      "epoch": 3.3619747690473827,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005310459918545743,
      "loss": 0.5184,
      "step": 67690
    },
    {
      "epoch": 3.362471441343002,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005310062580709249,
      "loss": 0.5619,
      "step": 67700
    },
    {
      "epoch": 3.362968113638621,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005309665242872753,
      "loss": 0.5395,
      "step": 67710
    },
    {
      "epoch": 3.363464785934241,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005309267905036257,
      "loss": 0.5428,
      "step": 67720
    },
    {
      "epoch": 3.36396145822986,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005308870567199762,
      "loss": 0.538,
      "step": 67730
    },
    {
      "epoch": 3.3644581305254793,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0005308473229363266,
      "loss": 0.5436,
      "step": 67740
    },
    {
      "epoch": 3.3649548028210985,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0005308075891526771,
      "loss": 0.5553,
      "step": 67750
    },
    {
      "epoch": 3.365451475116718,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005307678553690276,
      "loss": 0.5249,
      "step": 67760
    },
    {
      "epoch": 3.3659481474123374,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.000530728121585378,
      "loss": 0.5369,
      "step": 67770
    },
    {
      "epoch": 3.3664448197079566,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0005306883878017284,
      "loss": 0.5338,
      "step": 67780
    },
    {
      "epoch": 3.3669414920035763,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005306486540180788,
      "loss": 0.5266,
      "step": 67790
    },
    {
      "epoch": 3.3674381642991955,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005306089202344294,
      "loss": 0.5549,
      "step": 67800
    },
    {
      "epoch": 3.3679348365948147,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005305691864507799,
      "loss": 0.5414,
      "step": 67810
    },
    {
      "epoch": 3.368431508890434,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0005305294526671302,
      "loss": 0.5242,
      "step": 67820
    },
    {
      "epoch": 3.368928181186053,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005304897188834807,
      "loss": 0.5392,
      "step": 67830
    },
    {
      "epoch": 3.369424853481673,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0005304499850998312,
      "loss": 0.5174,
      "step": 67840
    },
    {
      "epoch": 3.369921525777292,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005304102513161816,
      "loss": 0.5748,
      "step": 67850
    },
    {
      "epoch": 3.3704181980729113,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005303705175325321,
      "loss": 0.5387,
      "step": 67860
    },
    {
      "epoch": 3.370914870368531,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005303307837488825,
      "loss": 0.5072,
      "step": 67870
    },
    {
      "epoch": 3.37141154266415,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0005302910499652329,
      "loss": 0.5303,
      "step": 67880
    },
    {
      "epoch": 3.3719082149597694,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005302513161815834,
      "loss": 0.5631,
      "step": 67890
    },
    {
      "epoch": 3.3724048872553887,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0005302115823979339,
      "loss": 0.5304,
      "step": 67900
    },
    {
      "epoch": 3.3729015595510083,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0005301718486142843,
      "loss": 0.5107,
      "step": 67910
    },
    {
      "epoch": 3.3733982318466276,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005301321148306348,
      "loss": 0.5199,
      "step": 67920
    },
    {
      "epoch": 3.373894904142247,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005300923810469852,
      "loss": 0.5309,
      "step": 67930
    },
    {
      "epoch": 3.3743915764378665,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005300526472633356,
      "loss": 0.5479,
      "step": 67940
    },
    {
      "epoch": 3.3748882487334857,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005300129134796862,
      "loss": 0.513,
      "step": 67950
    },
    {
      "epoch": 3.375384921029105,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005299731796960366,
      "loss": 0.5582,
      "step": 67960
    },
    {
      "epoch": 3.375881593324724,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0005299334459123871,
      "loss": 0.5594,
      "step": 67970
    },
    {
      "epoch": 3.376378265620344,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005298937121287374,
      "loss": 0.5227,
      "step": 67980
    },
    {
      "epoch": 3.376874937915963,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005298539783450879,
      "loss": 0.5474,
      "step": 67990
    },
    {
      "epoch": 3.3773716102115823,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005298142445614385,
      "loss": 0.5357,
      "step": 68000
    },
    {
      "epoch": 3.377868282507202,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005297745107777888,
      "loss": 0.5372,
      "step": 68010
    },
    {
      "epoch": 3.378364954802821,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0005297347769941393,
      "loss": 0.5519,
      "step": 68020
    },
    {
      "epoch": 3.3788616270984404,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005296950432104898,
      "loss": 0.5776,
      "step": 68030
    },
    {
      "epoch": 3.3793582993940596,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0005296553094268401,
      "loss": 0.537,
      "step": 68040
    },
    {
      "epoch": 3.3798549716896793,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005296155756431907,
      "loss": 0.5529,
      "step": 68050
    },
    {
      "epoch": 3.3803516439852985,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005295758418595411,
      "loss": 0.5543,
      "step": 68060
    },
    {
      "epoch": 3.3808483162809178,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005295361080758915,
      "loss": 0.5728,
      "step": 68070
    },
    {
      "epoch": 3.3813449885765374,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.000529496374292242,
      "loss": 0.525,
      "step": 68080
    },
    {
      "epoch": 3.3818416608721567,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005294566405085924,
      "loss": 0.5424,
      "step": 68090
    },
    {
      "epoch": 3.382338333167776,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.000529416906724943,
      "loss": 0.5249,
      "step": 68100
    },
    {
      "epoch": 3.382835005463395,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005293771729412934,
      "loss": 0.559,
      "step": 68110
    },
    {
      "epoch": 3.3833316777590148,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005293374391576438,
      "loss": 0.52,
      "step": 68120
    },
    {
      "epoch": 3.383828350054634,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005292977053739943,
      "loss": 0.5467,
      "step": 68130
    },
    {
      "epoch": 3.3843250223502532,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005292579715903447,
      "loss": 0.5558,
      "step": 68140
    },
    {
      "epoch": 3.384821694645873,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005292182378066952,
      "loss": 0.554,
      "step": 68150
    },
    {
      "epoch": 3.385318366941492,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005291785040230457,
      "loss": 0.5432,
      "step": 68160
    },
    {
      "epoch": 3.3858150392371114,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005291387702393961,
      "loss": 0.5391,
      "step": 68170
    },
    {
      "epoch": 3.3863117115327306,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005290990364557465,
      "loss": 0.5326,
      "step": 68180
    },
    {
      "epoch": 3.38680838382835,
      "grad_norm": 0.09765625,
      "learning_rate": 0.000529059302672097,
      "loss": 0.5463,
      "step": 68190
    },
    {
      "epoch": 3.3873050561239695,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005290195688884473,
      "loss": 0.5734,
      "step": 68200
    },
    {
      "epoch": 3.3878017284195887,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005289798351047979,
      "loss": 0.521,
      "step": 68210
    },
    {
      "epoch": 3.388298400715208,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005289401013211484,
      "loss": 0.5451,
      "step": 68220
    },
    {
      "epoch": 3.3887950730108276,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005289003675374987,
      "loss": 0.5402,
      "step": 68230
    },
    {
      "epoch": 3.389291745306447,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005288606337538492,
      "loss": 0.5204,
      "step": 68240
    },
    {
      "epoch": 3.389788417602066,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005288208999701997,
      "loss": 0.5358,
      "step": 68250
    },
    {
      "epoch": 3.3902850898976853,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005287811661865502,
      "loss": 0.5163,
      "step": 68260
    },
    {
      "epoch": 3.390781762193305,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005287414324029006,
      "loss": 0.5371,
      "step": 68270
    },
    {
      "epoch": 3.391278434488924,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.000528701698619251,
      "loss": 0.5256,
      "step": 68280
    },
    {
      "epoch": 3.3917751067845434,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0005286619648356015,
      "loss": 0.5205,
      "step": 68290
    },
    {
      "epoch": 3.392271779080163,
      "grad_norm": 0.189453125,
      "learning_rate": 0.000528622231051952,
      "loss": 0.496,
      "step": 68300
    },
    {
      "epoch": 3.3927684513757823,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0005285824972683024,
      "loss": 0.5303,
      "step": 68310
    },
    {
      "epoch": 3.3932651236714015,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005285427634846529,
      "loss": 0.5417,
      "step": 68320
    },
    {
      "epoch": 3.3937617959670208,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005285030297010033,
      "loss": 0.5569,
      "step": 68330
    },
    {
      "epoch": 3.3942584682626404,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005284632959173537,
      "loss": 0.5545,
      "step": 68340
    },
    {
      "epoch": 3.3947551405582597,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005284235621337043,
      "loss": 0.5759,
      "step": 68350
    },
    {
      "epoch": 3.395251812853879,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005283838283500547,
      "loss": 0.5187,
      "step": 68360
    },
    {
      "epoch": 3.3957484851494986,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005283440945664051,
      "loss": 0.5299,
      "step": 68370
    },
    {
      "epoch": 3.396245157445118,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005283043607827556,
      "loss": 0.5582,
      "step": 68380
    },
    {
      "epoch": 3.396741829740737,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005282646269991059,
      "loss": 0.5287,
      "step": 68390
    },
    {
      "epoch": 3.3972385020363562,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005282248932154564,
      "loss": 0.5188,
      "step": 68400
    },
    {
      "epoch": 3.397735174331976,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.000528185159431807,
      "loss": 0.5522,
      "step": 68410
    },
    {
      "epoch": 3.398231846627595,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0005281454256481574,
      "loss": 0.5268,
      "step": 68420
    },
    {
      "epoch": 3.3987285189232144,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005281056918645078,
      "loss": 0.5343,
      "step": 68430
    },
    {
      "epoch": 3.399225191218834,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0005280659580808582,
      "loss": 0.5571,
      "step": 68440
    },
    {
      "epoch": 3.3997218635144533,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005280262242972088,
      "loss": 0.5443,
      "step": 68450
    },
    {
      "epoch": 3.4002185358100725,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005279864905135592,
      "loss": 0.5339,
      "step": 68460
    },
    {
      "epoch": 3.4007152081056917,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0005279467567299096,
      "loss": 0.5359,
      "step": 68470
    },
    {
      "epoch": 3.4012118804013114,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005279070229462601,
      "loss": 0.5478,
      "step": 68480
    },
    {
      "epoch": 3.4017085526969306,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005278672891626105,
      "loss": 0.5385,
      "step": 68490
    },
    {
      "epoch": 3.40220522499255,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.000527827555378961,
      "loss": 0.5467,
      "step": 68500
    },
    {
      "epoch": 3.402701897288169,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005277878215953115,
      "loss": 0.5592,
      "step": 68510
    },
    {
      "epoch": 3.4031985695837887,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005277480878116619,
      "loss": 0.5589,
      "step": 68520
    },
    {
      "epoch": 3.403695241879408,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005277083540280123,
      "loss": 0.5371,
      "step": 68530
    },
    {
      "epoch": 3.404191914175027,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005276686202443628,
      "loss": 0.5365,
      "step": 68540
    },
    {
      "epoch": 3.4046885864706464,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005276288864607132,
      "loss": 0.5139,
      "step": 68550
    },
    {
      "epoch": 3.405185258766266,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005275891526770637,
      "loss": 0.546,
      "step": 68560
    },
    {
      "epoch": 3.4056819310618853,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005275494188934142,
      "loss": 0.4999,
      "step": 68570
    },
    {
      "epoch": 3.4061786033575046,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0005275096851097646,
      "loss": 0.5094,
      "step": 68580
    },
    {
      "epoch": 3.4066752756531242,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000527469951326115,
      "loss": 0.5602,
      "step": 68590
    },
    {
      "epoch": 3.4071719479487435,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005274302175424656,
      "loss": 0.5446,
      "step": 68600
    },
    {
      "epoch": 3.4076686202443627,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.000527390483758816,
      "loss": 0.5177,
      "step": 68610
    },
    {
      "epoch": 3.408165292539982,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0005273507499751664,
      "loss": 0.5689,
      "step": 68620
    },
    {
      "epoch": 3.4086619648356016,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005273110161915169,
      "loss": 0.5237,
      "step": 68630
    },
    {
      "epoch": 3.409158637131221,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005272712824078673,
      "loss": 0.5226,
      "step": 68640
    },
    {
      "epoch": 3.40965530942684,
      "grad_norm": 0.09375,
      "learning_rate": 0.0005272315486242177,
      "loss": 0.5478,
      "step": 68650
    },
    {
      "epoch": 3.4101519817224597,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0005271918148405682,
      "loss": 0.5422,
      "step": 68660
    },
    {
      "epoch": 3.410648654018079,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005271520810569187,
      "loss": 0.5278,
      "step": 68670
    },
    {
      "epoch": 3.411145326313698,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005271123472732691,
      "loss": 0.5128,
      "step": 68680
    },
    {
      "epoch": 3.4116419986093174,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005270726134896195,
      "loss": 0.5396,
      "step": 68690
    },
    {
      "epoch": 3.412138670904937,
      "grad_norm": 0.111328125,
      "learning_rate": 0.00052703287970597,
      "loss": 0.523,
      "step": 68700
    },
    {
      "epoch": 3.4126353432005563,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005269931459223205,
      "loss": 0.5256,
      "step": 68710
    },
    {
      "epoch": 3.4131320154961755,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005269534121386709,
      "loss": 0.5363,
      "step": 68720
    },
    {
      "epoch": 3.413628687791795,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005269136783550214,
      "loss": 0.5413,
      "step": 68730
    },
    {
      "epoch": 3.4141253600874144,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005268739445713718,
      "loss": 0.544,
      "step": 68740
    },
    {
      "epoch": 3.4146220323830336,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005268342107877222,
      "loss": 0.541,
      "step": 68750
    },
    {
      "epoch": 3.415118704678653,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005267944770040728,
      "loss": 0.5474,
      "step": 68760
    },
    {
      "epoch": 3.4156153769742725,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0005267547432204232,
      "loss": 0.5393,
      "step": 68770
    },
    {
      "epoch": 3.4161120492698918,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005267150094367736,
      "loss": 0.5744,
      "step": 68780
    },
    {
      "epoch": 3.416608721565511,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0005266752756531241,
      "loss": 0.5633,
      "step": 68790
    },
    {
      "epoch": 3.4171053938611307,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005266355418694745,
      "loss": 0.5428,
      "step": 68800
    },
    {
      "epoch": 3.41760206615675,
      "grad_norm": 0.1171875,
      "learning_rate": 0.000526595808085825,
      "loss": 0.5468,
      "step": 68810
    },
    {
      "epoch": 3.418098738452369,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005265560743021755,
      "loss": 0.5306,
      "step": 68820
    },
    {
      "epoch": 3.4185954107479883,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005265163405185259,
      "loss": 0.5672,
      "step": 68830
    },
    {
      "epoch": 3.419092083043608,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005264766067348763,
      "loss": 0.5292,
      "step": 68840
    },
    {
      "epoch": 3.4195887553392272,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005264368729512267,
      "loss": 0.5451,
      "step": 68850
    },
    {
      "epoch": 3.4200854276348465,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0005263971391675773,
      "loss": 0.5447,
      "step": 68860
    },
    {
      "epoch": 3.4205820999304657,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005263574053839278,
      "loss": 0.5387,
      "step": 68870
    },
    {
      "epoch": 3.4210787722260854,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005263176716002781,
      "loss": 0.5183,
      "step": 68880
    },
    {
      "epoch": 3.4215754445217046,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005262779378166286,
      "loss": 0.5336,
      "step": 68890
    },
    {
      "epoch": 3.422072116817324,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005262382040329792,
      "loss": 0.5533,
      "step": 68900
    },
    {
      "epoch": 3.422568789112943,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0005261984702493295,
      "loss": 0.5835,
      "step": 68910
    },
    {
      "epoch": 3.4230654614085627,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.00052615873646568,
      "loss": 0.5446,
      "step": 68920
    },
    {
      "epoch": 3.423562133704182,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005261190026820304,
      "loss": 0.548,
      "step": 68930
    },
    {
      "epoch": 3.424058805999801,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005260792688983808,
      "loss": 0.5148,
      "step": 68940
    },
    {
      "epoch": 3.424555478295421,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0005260395351147313,
      "loss": 0.5478,
      "step": 68950
    },
    {
      "epoch": 3.42505215059104,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005259998013310818,
      "loss": 0.541,
      "step": 68960
    },
    {
      "epoch": 3.4255488228866593,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005259600675474322,
      "loss": 0.5277,
      "step": 68970
    },
    {
      "epoch": 3.4260454951822785,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005259203337637827,
      "loss": 0.537,
      "step": 68980
    },
    {
      "epoch": 3.426542167477898,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005258805999801331,
      "loss": 0.551,
      "step": 68990
    },
    {
      "epoch": 3.4270388397735174,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005258408661964836,
      "loss": 0.5412,
      "step": 69000
    },
    {
      "epoch": 3.4275355120691366,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005258011324128341,
      "loss": 0.5622,
      "step": 69010
    },
    {
      "epoch": 3.4280321843647563,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005257613986291845,
      "loss": 0.5339,
      "step": 69020
    },
    {
      "epoch": 3.4285288566603755,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.000525721664845535,
      "loss": 0.5559,
      "step": 69030
    },
    {
      "epoch": 3.4290255289559948,
      "grad_norm": 0.125,
      "learning_rate": 0.0005256819310618853,
      "loss": 0.5526,
      "step": 69040
    },
    {
      "epoch": 3.429522201251614,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005256421972782358,
      "loss": 0.5512,
      "step": 69050
    },
    {
      "epoch": 3.4300188735472337,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005256024634945864,
      "loss": 0.5645,
      "step": 69060
    },
    {
      "epoch": 3.430515545842853,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0005255627297109367,
      "loss": 0.538,
      "step": 69070
    },
    {
      "epoch": 3.431012218138472,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005255229959272872,
      "loss": 0.5065,
      "step": 69080
    },
    {
      "epoch": 3.431508890434092,
      "grad_norm": 0.140625,
      "learning_rate": 0.0005254832621436377,
      "loss": 0.5269,
      "step": 69090
    },
    {
      "epoch": 3.432005562729711,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.000525443528359988,
      "loss": 0.5125,
      "step": 69100
    },
    {
      "epoch": 3.4325022350253303,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005254037945763386,
      "loss": 0.5389,
      "step": 69110
    },
    {
      "epoch": 3.4329989073209495,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.000525364060792689,
      "loss": 0.5265,
      "step": 69120
    },
    {
      "epoch": 3.433495579616569,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0005253243270090394,
      "loss": 0.5164,
      "step": 69130
    },
    {
      "epoch": 3.4339922519121884,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0005252845932253899,
      "loss": 0.5255,
      "step": 69140
    },
    {
      "epoch": 3.4344889242078076,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0005252448594417403,
      "loss": 0.5521,
      "step": 69150
    },
    {
      "epoch": 3.4349855965034273,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005252051256580909,
      "loss": 0.5428,
      "step": 69160
    },
    {
      "epoch": 3.4354822687990465,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0005251653918744413,
      "loss": 0.5408,
      "step": 69170
    },
    {
      "epoch": 3.4359789410946657,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005251256580907917,
      "loss": 0.547,
      "step": 69180
    },
    {
      "epoch": 3.436475613390285,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005250859243071422,
      "loss": 0.5285,
      "step": 69190
    },
    {
      "epoch": 3.4369722856859046,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0005250461905234926,
      "loss": 0.5264,
      "step": 69200
    },
    {
      "epoch": 3.437468957981524,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005250064567398431,
      "loss": 0.512,
      "step": 69210
    },
    {
      "epoch": 3.437965630277143,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005249667229561936,
      "loss": 0.535,
      "step": 69220
    },
    {
      "epoch": 3.4384623025727623,
      "grad_norm": 0.126953125,
      "learning_rate": 0.000524926989172544,
      "loss": 0.5482,
      "step": 69230
    },
    {
      "epoch": 3.438958974868382,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005248872553888944,
      "loss": 0.5437,
      "step": 69240
    },
    {
      "epoch": 3.439455647164001,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005248475216052449,
      "loss": 0.543,
      "step": 69250
    },
    {
      "epoch": 3.4399523194596204,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005248077878215953,
      "loss": 0.5419,
      "step": 69260
    },
    {
      "epoch": 3.4404489917552397,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005247680540379458,
      "loss": 0.5374,
      "step": 69270
    },
    {
      "epoch": 3.4409456640508593,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005247283202542963,
      "loss": 0.5166,
      "step": 69280
    },
    {
      "epoch": 3.4414423363464786,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0005246885864706466,
      "loss": 0.5189,
      "step": 69290
    },
    {
      "epoch": 3.441939008642098,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005246488526869971,
      "loss": 0.5521,
      "step": 69300
    },
    {
      "epoch": 3.4424356809377175,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005246091189033476,
      "loss": 0.5179,
      "step": 69310
    },
    {
      "epoch": 3.4429323532333367,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005245693851196981,
      "loss": 0.5458,
      "step": 69320
    },
    {
      "epoch": 3.443429025528956,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005245296513360485,
      "loss": 0.5593,
      "step": 69330
    },
    {
      "epoch": 3.443925697824575,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0005244899175523989,
      "loss": 0.5407,
      "step": 69340
    },
    {
      "epoch": 3.444422370120195,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005244501837687494,
      "loss": 0.5337,
      "step": 69350
    },
    {
      "epoch": 3.444919042415814,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005244104499850999,
      "loss": 0.5273,
      "step": 69360
    },
    {
      "epoch": 3.4454157147114333,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005243707162014503,
      "loss": 0.5145,
      "step": 69370
    },
    {
      "epoch": 3.445912387007053,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005243309824178008,
      "loss": 0.5227,
      "step": 69380
    },
    {
      "epoch": 3.446409059302672,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005242912486341512,
      "loss": 0.5793,
      "step": 69390
    },
    {
      "epoch": 3.4469057315982914,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005242515148505016,
      "loss": 0.5365,
      "step": 69400
    },
    {
      "epoch": 3.4474024038939106,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005242117810668522,
      "loss": 0.5376,
      "step": 69410
    },
    {
      "epoch": 3.4478990761895303,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005241720472832026,
      "loss": 0.5581,
      "step": 69420
    },
    {
      "epoch": 3.4483957484851495,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.000524132313499553,
      "loss": 0.5289,
      "step": 69430
    },
    {
      "epoch": 3.4488924207807687,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005240925797159035,
      "loss": 0.5134,
      "step": 69440
    },
    {
      "epoch": 3.4493890930763884,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0005240528459322539,
      "loss": 0.5416,
      "step": 69450
    },
    {
      "epoch": 3.4498857653720076,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005240131121486044,
      "loss": 0.5462,
      "step": 69460
    },
    {
      "epoch": 3.450382437667627,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005239733783649549,
      "loss": 0.5286,
      "step": 69470
    },
    {
      "epoch": 3.450879109963246,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005239336445813053,
      "loss": 0.5301,
      "step": 69480
    },
    {
      "epoch": 3.4513757822588658,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005238939107976557,
      "loss": 0.5386,
      "step": 69490
    },
    {
      "epoch": 3.451872454554485,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005238541770140062,
      "loss": 0.5514,
      "step": 69500
    },
    {
      "epoch": 3.452369126850104,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005238144432303567,
      "loss": 0.5283,
      "step": 69510
    },
    {
      "epoch": 3.452865799145724,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005237747094467071,
      "loss": 0.5174,
      "step": 69520
    },
    {
      "epoch": 3.453362471441343,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0005237349756630575,
      "loss": 0.53,
      "step": 69530
    },
    {
      "epoch": 3.4538591437369623,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.000523695241879408,
      "loss": 0.5549,
      "step": 69540
    },
    {
      "epoch": 3.4543558160325816,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0005236555080957584,
      "loss": 0.5244,
      "step": 69550
    },
    {
      "epoch": 3.4548524883282012,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005236157743121089,
      "loss": 0.5421,
      "step": 69560
    },
    {
      "epoch": 3.4553491606238205,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0005235760405284594,
      "loss": 0.5856,
      "step": 69570
    },
    {
      "epoch": 3.4558458329194397,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005235363067448098,
      "loss": 0.5223,
      "step": 69580
    },
    {
      "epoch": 3.456342505215059,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0005234965729611602,
      "loss": 0.5458,
      "step": 69590
    },
    {
      "epoch": 3.4568391775106786,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005234568391775107,
      "loss": 0.5358,
      "step": 69600
    },
    {
      "epoch": 3.457335849806298,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0005234171053938612,
      "loss": 0.5253,
      "step": 69610
    },
    {
      "epoch": 3.457832522101917,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005233773716102116,
      "loss": 0.5263,
      "step": 69620
    },
    {
      "epoch": 3.4583291943975363,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005233376378265621,
      "loss": 0.5653,
      "step": 69630
    },
    {
      "epoch": 3.458825866693156,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0005232979040429125,
      "loss": 0.5114,
      "step": 69640
    },
    {
      "epoch": 3.459322538988775,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005232581702592629,
      "loss": 0.5446,
      "step": 69650
    },
    {
      "epoch": 3.4598192112843944,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005232184364756135,
      "loss": 0.5211,
      "step": 69660
    },
    {
      "epoch": 3.460315883580014,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005231787026919639,
      "loss": 0.5337,
      "step": 69670
    },
    {
      "epoch": 3.4608125558756333,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.0005231389689083143,
      "loss": 0.5658,
      "step": 69680
    },
    {
      "epoch": 3.4613092281712525,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005230992351246648,
      "loss": 0.5337,
      "step": 69690
    },
    {
      "epoch": 3.4618059004668718,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005230595013410152,
      "loss": 0.5631,
      "step": 69700
    },
    {
      "epoch": 3.4623025727624914,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005230197675573656,
      "loss": 0.5428,
      "step": 69710
    },
    {
      "epoch": 3.4627992450581107,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0005229800337737161,
      "loss": 0.5287,
      "step": 69720
    },
    {
      "epoch": 3.46329591735373,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0005229402999900666,
      "loss": 0.5648,
      "step": 69730
    },
    {
      "epoch": 3.4637925896493496,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005229005662064171,
      "loss": 0.5414,
      "step": 69740
    },
    {
      "epoch": 3.464289261944969,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005228608324227674,
      "loss": 0.5192,
      "step": 69750
    },
    {
      "epoch": 3.464785934240588,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.000522821098639118,
      "loss": 0.538,
      "step": 69760
    },
    {
      "epoch": 3.4652826065362072,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005227813648554685,
      "loss": 0.5175,
      "step": 69770
    },
    {
      "epoch": 3.465779278831827,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005227416310718188,
      "loss": 0.548,
      "step": 69780
    },
    {
      "epoch": 3.466275951127446,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0005227018972881693,
      "loss": 0.5178,
      "step": 69790
    },
    {
      "epoch": 3.4667726234230654,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005226621635045197,
      "loss": 0.5473,
      "step": 69800
    },
    {
      "epoch": 3.467269295718685,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005226224297208701,
      "loss": 0.5624,
      "step": 69810
    },
    {
      "epoch": 3.4677659680143043,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005225826959372207,
      "loss": 0.5316,
      "step": 69820
    },
    {
      "epoch": 3.4682626403099235,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005225429621535711,
      "loss": 0.5235,
      "step": 69830
    },
    {
      "epoch": 3.4687593126055427,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005225032283699215,
      "loss": 0.5579,
      "step": 69840
    },
    {
      "epoch": 3.4692559849011624,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.000522463494586272,
      "loss": 0.525,
      "step": 69850
    },
    {
      "epoch": 3.4697526571967816,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005224237608026224,
      "loss": 0.5302,
      "step": 69860
    },
    {
      "epoch": 3.470249329492401,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005223840270189729,
      "loss": 0.5348,
      "step": 69870
    },
    {
      "epoch": 3.4707460017880205,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005223442932353234,
      "loss": 0.5421,
      "step": 69880
    },
    {
      "epoch": 3.4712426740836397,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0005223045594516738,
      "loss": 0.5356,
      "step": 69890
    },
    {
      "epoch": 3.471739346379259,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005222648256680243,
      "loss": 0.5201,
      "step": 69900
    },
    {
      "epoch": 3.472236018674878,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0005222250918843746,
      "loss": 0.5484,
      "step": 69910
    },
    {
      "epoch": 3.472732690970498,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0005221853581007252,
      "loss": 0.5577,
      "step": 69920
    },
    {
      "epoch": 3.473229363266117,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005221456243170757,
      "loss": 0.5364,
      "step": 69930
    },
    {
      "epoch": 3.4737260355617363,
      "grad_norm": 0.125,
      "learning_rate": 0.000522105890533426,
      "loss": 0.5182,
      "step": 69940
    },
    {
      "epoch": 3.4742227078573555,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0005220661567497765,
      "loss": 0.5141,
      "step": 69950
    },
    {
      "epoch": 3.474719380152975,
      "grad_norm": 0.18359375,
      "learning_rate": 0.000522026422966127,
      "loss": 0.5548,
      "step": 69960
    },
    {
      "epoch": 3.4752160524485944,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005219866891824774,
      "loss": 0.5866,
      "step": 69970
    },
    {
      "epoch": 3.4757127247442137,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0005219469553988279,
      "loss": 0.503,
      "step": 69980
    },
    {
      "epoch": 3.476209397039833,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005219072216151783,
      "loss": 0.5192,
      "step": 69990
    },
    {
      "epoch": 3.4767060693354526,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005218674878315287,
      "loss": 0.5409,
      "step": 70000
    },
    {
      "epoch": 3.477202741631072,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0005218277540478792,
      "loss": 0.5133,
      "step": 70010
    },
    {
      "epoch": 3.477699413926691,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005217880202642297,
      "loss": 0.5512,
      "step": 70020
    },
    {
      "epoch": 3.4781960862223107,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005217482864805801,
      "loss": 0.5461,
      "step": 70030
    },
    {
      "epoch": 3.47869275851793,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005217085526969306,
      "loss": 0.5825,
      "step": 70040
    },
    {
      "epoch": 3.479189430813549,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.000521668818913281,
      "loss": 0.5304,
      "step": 70050
    },
    {
      "epoch": 3.4796861031091684,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005216290851296316,
      "loss": 0.5333,
      "step": 70060
    },
    {
      "epoch": 3.480182775404788,
      "grad_norm": 0.1484375,
      "learning_rate": 0.000521589351345982,
      "loss": 0.5195,
      "step": 70070
    },
    {
      "epoch": 3.4806794477004073,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005215496175623324,
      "loss": 0.5215,
      "step": 70080
    },
    {
      "epoch": 3.4811761199960265,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005215098837786829,
      "loss": 0.5377,
      "step": 70090
    },
    {
      "epoch": 3.481672792291646,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0005214701499950333,
      "loss": 0.5759,
      "step": 70100
    },
    {
      "epoch": 3.4821694645872654,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0005214304162113837,
      "loss": 0.5493,
      "step": 70110
    },
    {
      "epoch": 3.4826661368828846,
      "grad_norm": 0.125,
      "learning_rate": 0.0005213906824277343,
      "loss": 0.5331,
      "step": 70120
    },
    {
      "epoch": 3.483162809178504,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005213509486440846,
      "loss": 0.5143,
      "step": 70130
    },
    {
      "epoch": 3.4836594814741235,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005213112148604351,
      "loss": 0.5208,
      "step": 70140
    },
    {
      "epoch": 3.4841561537697427,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005212714810767856,
      "loss": 0.5189,
      "step": 70150
    },
    {
      "epoch": 3.484652826065362,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005212317472931359,
      "loss": 0.5287,
      "step": 70160
    },
    {
      "epoch": 3.4851494983609816,
      "grad_norm": 0.15625,
      "learning_rate": 0.0005211920135094865,
      "loss": 0.5186,
      "step": 70170
    },
    {
      "epoch": 3.485646170656601,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005211522797258369,
      "loss": 0.5472,
      "step": 70180
    },
    {
      "epoch": 3.48614284295222,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005211125459421874,
      "loss": 0.5225,
      "step": 70190
    },
    {
      "epoch": 3.4866395152478393,
      "grad_norm": 0.140625,
      "learning_rate": 0.0005210728121585378,
      "loss": 0.5379,
      "step": 70200
    },
    {
      "epoch": 3.487136187543459,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005210330783748882,
      "loss": 0.5436,
      "step": 70210
    },
    {
      "epoch": 3.4876328598390782,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005209933445912388,
      "loss": 0.5352,
      "step": 70220
    },
    {
      "epoch": 3.4881295321346975,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005209536108075892,
      "loss": 0.5112,
      "step": 70230
    },
    {
      "epoch": 3.488626204430317,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005209138770239396,
      "loss": 0.5121,
      "step": 70240
    },
    {
      "epoch": 3.4891228767259364,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005208741432402901,
      "loss": 0.5324,
      "step": 70250
    },
    {
      "epoch": 3.4896195490215556,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005208344094566405,
      "loss": 0.5386,
      "step": 70260
    },
    {
      "epoch": 3.490116221317175,
      "grad_norm": 0.11328125,
      "learning_rate": 0.000520794675672991,
      "loss": 0.5745,
      "step": 70270
    },
    {
      "epoch": 3.490612893612794,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005207549418893415,
      "loss": 0.5429,
      "step": 70280
    },
    {
      "epoch": 3.4911095659084137,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005207152081056919,
      "loss": 0.567,
      "step": 70290
    },
    {
      "epoch": 3.491606238204033,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005206754743220423,
      "loss": 0.5386,
      "step": 70300
    },
    {
      "epoch": 3.492102910499652,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005206357405383928,
      "loss": 0.5078,
      "step": 70310
    },
    {
      "epoch": 3.492599582795272,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005205960067547432,
      "loss": 0.5088,
      "step": 70320
    },
    {
      "epoch": 3.493096255090891,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005205562729710937,
      "loss": 0.5491,
      "step": 70330
    },
    {
      "epoch": 3.4935929273865103,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005205165391874442,
      "loss": 0.5201,
      "step": 70340
    },
    {
      "epoch": 3.4940895996821295,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005204768054037946,
      "loss": 0.5218,
      "step": 70350
    },
    {
      "epoch": 3.494586271977749,
      "grad_norm": 0.1640625,
      "learning_rate": 0.000520437071620145,
      "loss": 0.5051,
      "step": 70360
    },
    {
      "epoch": 3.4950829442733684,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005203973378364956,
      "loss": 0.5346,
      "step": 70370
    },
    {
      "epoch": 3.4955796165689876,
      "grad_norm": 0.107421875,
      "learning_rate": 0.000520357604052846,
      "loss": 0.5233,
      "step": 70380
    },
    {
      "epoch": 3.4960762888646073,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005203178702691964,
      "loss": 0.526,
      "step": 70390
    },
    {
      "epoch": 3.4965729611602265,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0005202781364855468,
      "loss": 0.5111,
      "step": 70400
    },
    {
      "epoch": 3.4970696334558458,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005202384027018973,
      "loss": 0.5377,
      "step": 70410
    },
    {
      "epoch": 3.497566305751465,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0005201986689182478,
      "loss": 0.5488,
      "step": 70420
    },
    {
      "epoch": 3.4980629780470847,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0005201589351345982,
      "loss": 0.5356,
      "step": 70430
    },
    {
      "epoch": 3.498559650342704,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005201192013509487,
      "loss": 0.5158,
      "step": 70440
    },
    {
      "epoch": 3.499056322638323,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005200794675672991,
      "loss": 0.545,
      "step": 70450
    },
    {
      "epoch": 3.499552994933943,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005200397337836495,
      "loss": 0.5401,
      "step": 70460
    },
    {
      "epoch": 3.500049667229562,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0005200000000000001,
      "loss": 0.519,
      "step": 70470
    },
    {
      "epoch": 3.5005463395251812,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005199602662163505,
      "loss": 0.5401,
      "step": 70480
    },
    {
      "epoch": 3.5010430118208005,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005199205324327009,
      "loss": 0.5255,
      "step": 70490
    },
    {
      "epoch": 3.50153968411642,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005198807986490514,
      "loss": 0.5162,
      "step": 70500
    },
    {
      "epoch": 3.5020363564120394,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0005198410648654018,
      "loss": 0.5138,
      "step": 70510
    },
    {
      "epoch": 3.5025330287076586,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005198013310817523,
      "loss": 0.5377,
      "step": 70520
    },
    {
      "epoch": 3.5030297010032783,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005197615972981028,
      "loss": 0.534,
      "step": 70530
    },
    {
      "epoch": 3.5035263732988975,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005197218635144532,
      "loss": 0.557,
      "step": 70540
    },
    {
      "epoch": 3.5040230455945167,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0005196821297308036,
      "loss": 0.5508,
      "step": 70550
    },
    {
      "epoch": 3.504519717890136,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005196423959471541,
      "loss": 0.5263,
      "step": 70560
    },
    {
      "epoch": 3.505016390185755,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005196026621635046,
      "loss": 0.5132,
      "step": 70570
    },
    {
      "epoch": 3.505513062481375,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.000519562928379855,
      "loss": 0.5644,
      "step": 70580
    },
    {
      "epoch": 3.506009734776994,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005195231945962054,
      "loss": 0.501,
      "step": 70590
    },
    {
      "epoch": 3.5065064070726137,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005194834608125559,
      "loss": 0.5329,
      "step": 70600
    },
    {
      "epoch": 3.507003079368233,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005194437270289063,
      "loss": 0.5443,
      "step": 70610
    },
    {
      "epoch": 3.507499751663852,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005194039932452568,
      "loss": 0.5276,
      "step": 70620
    },
    {
      "epoch": 3.5079964239594714,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005193642594616073,
      "loss": 0.5405,
      "step": 70630
    },
    {
      "epoch": 3.5084930962550906,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005193245256779578,
      "loss": 0.5529,
      "step": 70640
    },
    {
      "epoch": 3.5089897685507103,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005192847918943081,
      "loss": 0.5094,
      "step": 70650
    },
    {
      "epoch": 3.5094864408463295,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005192450581106586,
      "loss": 0.5102,
      "step": 70660
    },
    {
      "epoch": 3.509983113141949,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005192053243270091,
      "loss": 0.5402,
      "step": 70670
    },
    {
      "epoch": 3.5104797854375684,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005191655905433595,
      "loss": 0.5365,
      "step": 70680
    },
    {
      "epoch": 3.5109764577331877,
      "grad_norm": 0.1328125,
      "learning_rate": 0.00051912585675971,
      "loss": 0.554,
      "step": 70690
    },
    {
      "epoch": 3.511473130028807,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005190861229760604,
      "loss": 0.5333,
      "step": 70700
    },
    {
      "epoch": 3.511969802324426,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005190463891924108,
      "loss": 0.5351,
      "step": 70710
    },
    {
      "epoch": 3.512466474620046,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005190066554087614,
      "loss": 0.5524,
      "step": 70720
    },
    {
      "epoch": 3.512963146915665,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005189669216251118,
      "loss": 0.5221,
      "step": 70730
    },
    {
      "epoch": 3.5134598192112843,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005189271878414622,
      "loss": 0.5439,
      "step": 70740
    },
    {
      "epoch": 3.513956491506904,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005188874540578127,
      "loss": 0.534,
      "step": 70750
    },
    {
      "epoch": 3.514453163802523,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005188477202741631,
      "loss": 0.5449,
      "step": 70760
    },
    {
      "epoch": 3.5149498360981424,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005188079864905136,
      "loss": 0.5213,
      "step": 70770
    },
    {
      "epoch": 3.5154465083937616,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.000518768252706864,
      "loss": 0.5238,
      "step": 70780
    },
    {
      "epoch": 3.5159431806893813,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0005187285189232145,
      "loss": 0.5503,
      "step": 70790
    },
    {
      "epoch": 3.5164398529850005,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.000518688785139565,
      "loss": 0.5157,
      "step": 70800
    },
    {
      "epoch": 3.5169365252806197,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005186490513559153,
      "loss": 0.5357,
      "step": 70810
    },
    {
      "epoch": 3.5174331975762394,
      "grad_norm": 0.140625,
      "learning_rate": 0.0005186093175722659,
      "loss": 0.5286,
      "step": 70820
    },
    {
      "epoch": 3.5179298698718586,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005185695837886164,
      "loss": 0.556,
      "step": 70830
    },
    {
      "epoch": 3.518426542167478,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0005185298500049667,
      "loss": 0.5277,
      "step": 70840
    },
    {
      "epoch": 3.518923214463097,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005184901162213172,
      "loss": 0.5423,
      "step": 70850
    },
    {
      "epoch": 3.5194198867587168,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005184503824376676,
      "loss": 0.5051,
      "step": 70860
    },
    {
      "epoch": 3.519916559054336,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.000518410648654018,
      "loss": 0.5264,
      "step": 70870
    },
    {
      "epoch": 3.520413231349955,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005183709148703686,
      "loss": 0.5475,
      "step": 70880
    },
    {
      "epoch": 3.520909903645575,
      "grad_norm": 0.12890625,
      "learning_rate": 0.000518331181086719,
      "loss": 0.5207,
      "step": 70890
    },
    {
      "epoch": 3.521406575941194,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0005182914473030694,
      "loss": 0.532,
      "step": 70900
    },
    {
      "epoch": 3.5219032482368133,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0005182517135194199,
      "loss": 0.5313,
      "step": 70910
    },
    {
      "epoch": 3.5223999205324326,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005182119797357704,
      "loss": 0.5218,
      "step": 70920
    },
    {
      "epoch": 3.522896592828052,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.0005181722459521208,
      "loss": 0.5331,
      "step": 70930
    },
    {
      "epoch": 3.5233932651236715,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005181325121684713,
      "loss": 0.5286,
      "step": 70940
    },
    {
      "epoch": 3.5238899374192907,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005180927783848217,
      "loss": 0.534,
      "step": 70950
    },
    {
      "epoch": 3.5243866097149104,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0005180530446011722,
      "loss": 0.5566,
      "step": 70960
    },
    {
      "epoch": 3.5248832820105296,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005180133108175227,
      "loss": 0.5477,
      "step": 70970
    },
    {
      "epoch": 3.525379954306149,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005179735770338731,
      "loss": 0.512,
      "step": 70980
    },
    {
      "epoch": 3.525876626601768,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005179338432502236,
      "loss": 0.5373,
      "step": 70990
    },
    {
      "epoch": 3.5263732988973873,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005178941094665739,
      "loss": 0.5523,
      "step": 71000
    },
    {
      "epoch": 3.526869971193007,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005178543756829244,
      "loss": 0.5356,
      "step": 71010
    },
    {
      "epoch": 3.527366643488626,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.000517814641899275,
      "loss": 0.4895,
      "step": 71020
    },
    {
      "epoch": 3.5278633157842454,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005177749081156253,
      "loss": 0.5625,
      "step": 71030
    },
    {
      "epoch": 3.528359988079865,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005177351743319758,
      "loss": 0.5389,
      "step": 71040
    },
    {
      "epoch": 3.5288566603754843,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0005176954405483262,
      "loss": 0.5461,
      "step": 71050
    },
    {
      "epoch": 3.5293533326711035,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005176557067646766,
      "loss": 0.5489,
      "step": 71060
    },
    {
      "epoch": 3.5298500049667227,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005176159729810272,
      "loss": 0.5162,
      "step": 71070
    },
    {
      "epoch": 3.5303466772623424,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005175762391973776,
      "loss": 0.5644,
      "step": 71080
    },
    {
      "epoch": 3.5308433495579616,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005175365054137281,
      "loss": 0.5453,
      "step": 71090
    },
    {
      "epoch": 3.531340021853581,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0005174967716300785,
      "loss": 0.5447,
      "step": 71100
    },
    {
      "epoch": 3.5318366941492005,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005174570378464289,
      "loss": 0.5287,
      "step": 71110
    },
    {
      "epoch": 3.5323333664448198,
      "grad_norm": 0.0908203125,
      "learning_rate": 0.0005174173040627795,
      "loss": 0.5363,
      "step": 71120
    },
    {
      "epoch": 3.532830038740439,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005173775702791299,
      "loss": 0.5309,
      "step": 71130
    },
    {
      "epoch": 3.533326711036058,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005173378364954803,
      "loss": 0.5407,
      "step": 71140
    },
    {
      "epoch": 3.533823383331678,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0005172981027118308,
      "loss": 0.5334,
      "step": 71150
    },
    {
      "epoch": 3.534320055627297,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005172583689281812,
      "loss": 0.5472,
      "step": 71160
    },
    {
      "epoch": 3.5348167279229163,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005172186351445316,
      "loss": 0.5391,
      "step": 71170
    },
    {
      "epoch": 3.535313400218536,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0005171789013608822,
      "loss": 0.5256,
      "step": 71180
    },
    {
      "epoch": 3.5358100725141552,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005171391675772325,
      "loss": 0.5316,
      "step": 71190
    },
    {
      "epoch": 3.5363067448097745,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.000517099433793583,
      "loss": 0.5215,
      "step": 71200
    },
    {
      "epoch": 3.5368034171053937,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005170597000099335,
      "loss": 0.5602,
      "step": 71210
    },
    {
      "epoch": 3.5373000894010134,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005170199662262838,
      "loss": 0.5639,
      "step": 71220
    },
    {
      "epoch": 3.5377967616966326,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005169802324426344,
      "loss": 0.5334,
      "step": 71230
    },
    {
      "epoch": 3.538293433992252,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005169404986589849,
      "loss": 0.5257,
      "step": 71240
    },
    {
      "epoch": 3.5387901062878715,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005169007648753353,
      "loss": 0.5557,
      "step": 71250
    },
    {
      "epoch": 3.5392867785834907,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005168610310916857,
      "loss": 0.526,
      "step": 71260
    },
    {
      "epoch": 3.53978345087911,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005168212973080361,
      "loss": 0.5291,
      "step": 71270
    },
    {
      "epoch": 3.540280123174729,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0005167815635243867,
      "loss": 0.5306,
      "step": 71280
    },
    {
      "epoch": 3.5407767954703484,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0005167418297407371,
      "loss": 0.5884,
      "step": 71290
    },
    {
      "epoch": 3.541273467765968,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005167020959570875,
      "loss": 0.54,
      "step": 71300
    },
    {
      "epoch": 3.5417701400615873,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.000516662362173438,
      "loss": 0.5544,
      "step": 71310
    },
    {
      "epoch": 3.542266812357207,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005166226283897884,
      "loss": 0.5319,
      "step": 71320
    },
    {
      "epoch": 3.542763484652826,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005165828946061389,
      "loss": 0.5144,
      "step": 71330
    },
    {
      "epoch": 3.5432601569484454,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005165431608224894,
      "loss": 0.5351,
      "step": 71340
    },
    {
      "epoch": 3.5437568292440647,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005165034270388398,
      "loss": 0.528,
      "step": 71350
    },
    {
      "epoch": 3.544253501539684,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005164636932551902,
      "loss": 0.5571,
      "step": 71360
    },
    {
      "epoch": 3.5447501738353036,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005164239594715408,
      "loss": 0.5561,
      "step": 71370
    },
    {
      "epoch": 3.545246846130923,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0005163842256878911,
      "loss": 0.5146,
      "step": 71380
    },
    {
      "epoch": 3.545743518426542,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005163444919042416,
      "loss": 0.5854,
      "step": 71390
    },
    {
      "epoch": 3.5462401907221617,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005163047581205921,
      "loss": 0.5365,
      "step": 71400
    },
    {
      "epoch": 3.546736863017781,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005162650243369425,
      "loss": 0.5505,
      "step": 71410
    },
    {
      "epoch": 3.5472335353134,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005162252905532929,
      "loss": 0.5291,
      "step": 71420
    },
    {
      "epoch": 3.5477302076090194,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005161855567696435,
      "loss": 0.5225,
      "step": 71430
    },
    {
      "epoch": 3.548226879904639,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005161458229859939,
      "loss": 0.5633,
      "step": 71440
    },
    {
      "epoch": 3.5487235522002583,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005161060892023443,
      "loss": 0.5341,
      "step": 71450
    },
    {
      "epoch": 3.5492202244958775,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005160663554186947,
      "loss": 0.5525,
      "step": 71460
    },
    {
      "epoch": 3.549716896791497,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005160266216350452,
      "loss": 0.5279,
      "step": 71470
    },
    {
      "epoch": 3.5502135690871164,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005159868878513957,
      "loss": 0.5233,
      "step": 71480
    },
    {
      "epoch": 3.5507102413827356,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005159471540677461,
      "loss": 0.5602,
      "step": 71490
    },
    {
      "epoch": 3.551206913678355,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0005159074202840966,
      "loss": 0.5283,
      "step": 71500
    },
    {
      "epoch": 3.5517035859739745,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.000515867686500447,
      "loss": 0.5276,
      "step": 71510
    },
    {
      "epoch": 3.5522002582695937,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005158279527167974,
      "loss": 0.5337,
      "step": 71520
    },
    {
      "epoch": 3.552696930565213,
      "grad_norm": 0.123046875,
      "learning_rate": 0.000515788218933148,
      "loss": 0.5452,
      "step": 71530
    },
    {
      "epoch": 3.5531936028608326,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0005157484851494984,
      "loss": 0.5402,
      "step": 71540
    },
    {
      "epoch": 3.553690275156452,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005157087513658488,
      "loss": 0.5368,
      "step": 71550
    },
    {
      "epoch": 3.554186947452071,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005156690175821993,
      "loss": 0.5163,
      "step": 71560
    },
    {
      "epoch": 3.5546836197476903,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005156292837985497,
      "loss": 0.5423,
      "step": 71570
    },
    {
      "epoch": 3.55518029204331,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005155895500149002,
      "loss": 0.5379,
      "step": 71580
    },
    {
      "epoch": 3.555676964338929,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005155498162312507,
      "loss": 0.5347,
      "step": 71590
    },
    {
      "epoch": 3.5561736366345484,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005155100824476011,
      "loss": 0.5431,
      "step": 71600
    },
    {
      "epoch": 3.556670308930168,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005154703486639515,
      "loss": 0.5104,
      "step": 71610
    },
    {
      "epoch": 3.5571669812257873,
      "grad_norm": 0.1640625,
      "learning_rate": 0.000515430614880302,
      "loss": 0.5474,
      "step": 71620
    },
    {
      "epoch": 3.5576636535214066,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005153908810966525,
      "loss": 0.552,
      "step": 71630
    },
    {
      "epoch": 3.558160325817026,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005153511473130029,
      "loss": 0.534,
      "step": 71640
    },
    {
      "epoch": 3.558656998112645,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005153114135293533,
      "loss": 0.5133,
      "step": 71650
    },
    {
      "epoch": 3.5591536704082647,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005152716797457038,
      "loss": 0.5526,
      "step": 71660
    },
    {
      "epoch": 3.559650342703884,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005152319459620542,
      "loss": 0.5265,
      "step": 71670
    },
    {
      "epoch": 3.5601470149995036,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005151922121784047,
      "loss": 0.5408,
      "step": 71680
    },
    {
      "epoch": 3.560643687295123,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005151524783947552,
      "loss": 0.5153,
      "step": 71690
    },
    {
      "epoch": 3.561140359590742,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005151127446111057,
      "loss": 0.5274,
      "step": 71700
    },
    {
      "epoch": 3.5616370318863613,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.000515073010827456,
      "loss": 0.5479,
      "step": 71710
    },
    {
      "epoch": 3.5621337041819805,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005150332770438065,
      "loss": 0.5359,
      "step": 71720
    },
    {
      "epoch": 3.5626303764776,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.000514993543260157,
      "loss": 0.5266,
      "step": 71730
    },
    {
      "epoch": 3.5631270487732194,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005149538094765074,
      "loss": 0.5389,
      "step": 71740
    },
    {
      "epoch": 3.5636237210688386,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005149140756928579,
      "loss": 0.5269,
      "step": 71750
    },
    {
      "epoch": 3.5641203933644583,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0005148743419092083,
      "loss": 0.5298,
      "step": 71760
    },
    {
      "epoch": 3.5646170656600775,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005148346081255587,
      "loss": 0.5324,
      "step": 71770
    },
    {
      "epoch": 3.5651137379556967,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0005147948743419093,
      "loss": 0.5094,
      "step": 71780
    },
    {
      "epoch": 3.565610410251316,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005147551405582597,
      "loss": 0.541,
      "step": 71790
    },
    {
      "epoch": 3.5661070825469356,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0005147154067746101,
      "loss": 0.5141,
      "step": 71800
    },
    {
      "epoch": 3.566603754842555,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0005146756729909606,
      "loss": 0.5217,
      "step": 71810
    },
    {
      "epoch": 3.567100427138174,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.000514635939207311,
      "loss": 0.5366,
      "step": 71820
    },
    {
      "epoch": 3.5675970994337938,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005145962054236616,
      "loss": 0.542,
      "step": 71830
    },
    {
      "epoch": 3.568093771729413,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005145564716400119,
      "loss": 0.5197,
      "step": 71840
    },
    {
      "epoch": 3.5685904440250322,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0005145167378563624,
      "loss": 0.5421,
      "step": 71850
    },
    {
      "epoch": 3.5690871163206515,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005144770040727129,
      "loss": 0.5638,
      "step": 71860
    },
    {
      "epoch": 3.569583788616271,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005144372702890632,
      "loss": 0.501,
      "step": 71870
    },
    {
      "epoch": 3.5700804609118904,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005143975365054138,
      "loss": 0.5251,
      "step": 71880
    },
    {
      "epoch": 3.5705771332075096,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005143578027217643,
      "loss": 0.5545,
      "step": 71890
    },
    {
      "epoch": 3.5710738055031293,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005143180689381146,
      "loss": 0.5231,
      "step": 71900
    },
    {
      "epoch": 3.5715704777987485,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005142783351544651,
      "loss": 0.5064,
      "step": 71910
    },
    {
      "epoch": 3.5720671500943677,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005142386013708155,
      "loss": 0.5371,
      "step": 71920
    },
    {
      "epoch": 3.572563822389987,
      "grad_norm": 0.1328125,
      "learning_rate": 0.000514198867587166,
      "loss": 0.5559,
      "step": 71930
    },
    {
      "epoch": 3.5730604946856066,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0005141591338035165,
      "loss": 0.5532,
      "step": 71940
    },
    {
      "epoch": 3.573557166981226,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005141194000198669,
      "loss": 0.5337,
      "step": 71950
    },
    {
      "epoch": 3.574053839276845,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005140796662362173,
      "loss": 0.5438,
      "step": 71960
    },
    {
      "epoch": 3.5745505115724647,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005140399324525678,
      "loss": 0.507,
      "step": 71970
    },
    {
      "epoch": 3.575047183868084,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005140001986689183,
      "loss": 0.5545,
      "step": 71980
    },
    {
      "epoch": 3.575543856163703,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0005139604648852688,
      "loss": 0.5334,
      "step": 71990
    },
    {
      "epoch": 3.5760405284593224,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005139207311016192,
      "loss": 0.5445,
      "step": 72000
    },
    {
      "epoch": 3.5765372007549416,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005138809973179696,
      "loss": 0.5251,
      "step": 72010
    },
    {
      "epoch": 3.5770338730505613,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0005138412635343201,
      "loss": 0.5447,
      "step": 72020
    },
    {
      "epoch": 3.5775305453461805,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005138015297506706,
      "loss": 0.5429,
      "step": 72030
    },
    {
      "epoch": 3.5780272176418,
      "grad_norm": 0.111328125,
      "learning_rate": 0.000513761795967021,
      "loss": 0.5255,
      "step": 72040
    },
    {
      "epoch": 3.5785238899374194,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005137220621833715,
      "loss": 0.5466,
      "step": 72050
    },
    {
      "epoch": 3.5790205622330387,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005136823283997218,
      "loss": 0.5773,
      "step": 72060
    },
    {
      "epoch": 3.579517234528658,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005136425946160723,
      "loss": 0.5379,
      "step": 72070
    },
    {
      "epoch": 3.580013906824277,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005136028608324229,
      "loss": 0.5583,
      "step": 72080
    },
    {
      "epoch": 3.580510579119897,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005135631270487732,
      "loss": 0.5559,
      "step": 72090
    },
    {
      "epoch": 3.581007251415516,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005135233932651237,
      "loss": 0.5188,
      "step": 72100
    },
    {
      "epoch": 3.5815039237111352,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005134836594814741,
      "loss": 0.5299,
      "step": 72110
    },
    {
      "epoch": 3.582000596006755,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005134439256978245,
      "loss": 0.522,
      "step": 72120
    },
    {
      "epoch": 3.582497268302374,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005134041919141751,
      "loss": 0.5496,
      "step": 72130
    },
    {
      "epoch": 3.5829939405979934,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005133644581305255,
      "loss": 0.5553,
      "step": 72140
    },
    {
      "epoch": 3.5834906128936126,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.000513324724346876,
      "loss": 0.5767,
      "step": 72150
    },
    {
      "epoch": 3.5839872851892323,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005132849905632264,
      "loss": 0.5259,
      "step": 72160
    },
    {
      "epoch": 3.5844839574848515,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005132452567795768,
      "loss": 0.546,
      "step": 72170
    },
    {
      "epoch": 3.5849806297804707,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0005132055229959274,
      "loss": 0.5524,
      "step": 72180
    },
    {
      "epoch": 3.5854773020760904,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0005131657892122778,
      "loss": 0.5292,
      "step": 72190
    },
    {
      "epoch": 3.5859739743717096,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005131260554286282,
      "loss": 0.5343,
      "step": 72200
    },
    {
      "epoch": 3.586470646667329,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005130863216449787,
      "loss": 0.5208,
      "step": 72210
    },
    {
      "epoch": 3.586967318962948,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005130465878613291,
      "loss": 0.5311,
      "step": 72220
    },
    {
      "epoch": 3.5874639912585677,
      "grad_norm": 0.203125,
      "learning_rate": 0.0005130068540776796,
      "loss": 0.5472,
      "step": 72230
    },
    {
      "epoch": 3.587960663554187,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005129671202940301,
      "loss": 0.5617,
      "step": 72240
    },
    {
      "epoch": 3.588457335849806,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005129273865103804,
      "loss": 0.5349,
      "step": 72250
    },
    {
      "epoch": 3.588954008145426,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005128876527267309,
      "loss": 0.5385,
      "step": 72260
    },
    {
      "epoch": 3.589450680441045,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005128479189430814,
      "loss": 0.5568,
      "step": 72270
    },
    {
      "epoch": 3.5899473527366643,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005128081851594319,
      "loss": 0.5277,
      "step": 72280
    },
    {
      "epoch": 3.5904440250322835,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005127684513757823,
      "loss": 0.5236,
      "step": 72290
    },
    {
      "epoch": 3.5909406973279028,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005127287175921328,
      "loss": 0.5263,
      "step": 72300
    },
    {
      "epoch": 3.5914373696235224,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005126889838084832,
      "loss": 0.5068,
      "step": 72310
    },
    {
      "epoch": 3.5919340419191417,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0005126492500248336,
      "loss": 0.5226,
      "step": 72320
    },
    {
      "epoch": 3.5924307142147613,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.000512609516241184,
      "loss": 0.526,
      "step": 72330
    },
    {
      "epoch": 3.5929273865103806,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005125697824575346,
      "loss": 0.5258,
      "step": 72340
    },
    {
      "epoch": 3.593424058806,
      "grad_norm": 0.14453125,
      "learning_rate": 0.000512530048673885,
      "loss": 0.5363,
      "step": 72350
    },
    {
      "epoch": 3.593920731101619,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005124903148902354,
      "loss": 0.5559,
      "step": 72360
    },
    {
      "epoch": 3.5944174033972383,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005124505811065859,
      "loss": 0.5435,
      "step": 72370
    },
    {
      "epoch": 3.594914075692858,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0005124108473229364,
      "loss": 0.5365,
      "step": 72380
    },
    {
      "epoch": 3.595410747988477,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005123711135392868,
      "loss": 0.5493,
      "step": 72390
    },
    {
      "epoch": 3.595907420284097,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005123313797556373,
      "loss": 0.4943,
      "step": 72400
    },
    {
      "epoch": 3.596404092579716,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005122916459719877,
      "loss": 0.5471,
      "step": 72410
    },
    {
      "epoch": 3.5969007648753353,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005122519121883381,
      "loss": 0.5154,
      "step": 72420
    },
    {
      "epoch": 3.5973974371709545,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005122121784046887,
      "loss": 0.5237,
      "step": 72430
    },
    {
      "epoch": 3.5978941094665737,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005121724446210391,
      "loss": 0.5129,
      "step": 72440
    },
    {
      "epoch": 3.5983907817621934,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005121327108373895,
      "loss": 0.5398,
      "step": 72450
    },
    {
      "epoch": 3.5988874540578126,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.00051209297705374,
      "loss": 0.5368,
      "step": 72460
    },
    {
      "epoch": 3.599384126353432,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005120532432700904,
      "loss": 0.5295,
      "step": 72470
    },
    {
      "epoch": 3.5998807986490515,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005120135094864408,
      "loss": 0.5352,
      "step": 72480
    },
    {
      "epoch": 3.6003774709446708,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005119737757027914,
      "loss": 0.5417,
      "step": 72490
    },
    {
      "epoch": 3.60087414324029,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0005119340419191418,
      "loss": 0.5551,
      "step": 72500
    },
    {
      "epoch": 3.601370815535909,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005118943081354922,
      "loss": 0.5224,
      "step": 72510
    },
    {
      "epoch": 3.601867487831529,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0005118545743518426,
      "loss": 0.5196,
      "step": 72520
    },
    {
      "epoch": 3.602364160127148,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005118148405681932,
      "loss": 0.5537,
      "step": 72530
    },
    {
      "epoch": 3.6028608324227673,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005117751067845436,
      "loss": 0.5389,
      "step": 72540
    },
    {
      "epoch": 3.603357504718387,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.000511735373000894,
      "loss": 0.5216,
      "step": 72550
    },
    {
      "epoch": 3.6038541770140062,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005116956392172445,
      "loss": 0.5322,
      "step": 72560
    },
    {
      "epoch": 3.6043508493096255,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0005116559054335949,
      "loss": 0.5167,
      "step": 72570
    },
    {
      "epoch": 3.6048475216052447,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005116161716499453,
      "loss": 0.5366,
      "step": 72580
    },
    {
      "epoch": 3.6053441939008644,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0005115764378662959,
      "loss": 0.5253,
      "step": 72590
    },
    {
      "epoch": 3.6058408661964836,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005115367040826463,
      "loss": 0.5323,
      "step": 72600
    },
    {
      "epoch": 3.606337538492103,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0005114969702989967,
      "loss": 0.5361,
      "step": 72610
    },
    {
      "epoch": 3.6068342107877225,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005114572365153472,
      "loss": 0.5282,
      "step": 72620
    },
    {
      "epoch": 3.6073308830833417,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005114175027316976,
      "loss": 0.5132,
      "step": 72630
    },
    {
      "epoch": 3.607827555378961,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005113777689480481,
      "loss": 0.5314,
      "step": 72640
    },
    {
      "epoch": 3.60832422767458,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005113380351643986,
      "loss": 0.5729,
      "step": 72650
    },
    {
      "epoch": 3.6088208999701994,
      "grad_norm": 0.09765625,
      "learning_rate": 0.000511298301380749,
      "loss": 0.5214,
      "step": 72660
    },
    {
      "epoch": 3.609317572265819,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0005112585675970994,
      "loss": 0.5506,
      "step": 72670
    },
    {
      "epoch": 3.6098142445614383,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.00051121883381345,
      "loss": 0.5271,
      "step": 72680
    },
    {
      "epoch": 3.610310916857058,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005111791000298004,
      "loss": 0.5279,
      "step": 72690
    },
    {
      "epoch": 3.610807589152677,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005111393662461508,
      "loss": 0.5279,
      "step": 72700
    },
    {
      "epoch": 3.6113042614482964,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005110996324625012,
      "loss": 0.5447,
      "step": 72710
    },
    {
      "epoch": 3.6118009337439156,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0005110598986788517,
      "loss": 0.5431,
      "step": 72720
    },
    {
      "epoch": 3.612297606039535,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0005110201648952023,
      "loss": 0.5097,
      "step": 72730
    },
    {
      "epoch": 3.6127942783351545,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005109804311115526,
      "loss": 0.5035,
      "step": 72740
    },
    {
      "epoch": 3.6132909506307738,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0005109406973279031,
      "loss": 0.5387,
      "step": 72750
    },
    {
      "epoch": 3.6137876229263934,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005109009635442536,
      "loss": 0.5378,
      "step": 72760
    },
    {
      "epoch": 3.6142842952220127,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0005108612297606039,
      "loss": 0.5338,
      "step": 72770
    },
    {
      "epoch": 3.614780967517632,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005108214959769544,
      "loss": 0.5323,
      "step": 72780
    },
    {
      "epoch": 3.615277639813251,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005107817621933049,
      "loss": 0.54,
      "step": 72790
    },
    {
      "epoch": 3.6157743121088703,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005107420284096553,
      "loss": 0.5103,
      "step": 72800
    },
    {
      "epoch": 3.61627098440449,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005107022946260058,
      "loss": 0.5156,
      "step": 72810
    },
    {
      "epoch": 3.6167676567001092,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005106625608423562,
      "loss": 0.5502,
      "step": 72820
    },
    {
      "epoch": 3.6172643289957285,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005106228270587066,
      "loss": 0.5266,
      "step": 72830
    },
    {
      "epoch": 3.617761001291348,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005105830932750572,
      "loss": 0.564,
      "step": 72840
    },
    {
      "epoch": 3.6182576735869674,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005105433594914076,
      "loss": 0.55,
      "step": 72850
    },
    {
      "epoch": 3.6187543458825866,
      "grad_norm": 0.115234375,
      "learning_rate": 0.000510503625707758,
      "loss": 0.5557,
      "step": 72860
    },
    {
      "epoch": 3.619251018178206,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005104638919241085,
      "loss": 0.5395,
      "step": 72870
    },
    {
      "epoch": 3.6197476904738255,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005104241581404589,
      "loss": 0.5113,
      "step": 72880
    },
    {
      "epoch": 3.6202443627694447,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005103844243568095,
      "loss": 0.5233,
      "step": 72890
    },
    {
      "epoch": 3.620741035065064,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005103446905731599,
      "loss": 0.5474,
      "step": 72900
    },
    {
      "epoch": 3.6212377073606836,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005103049567895103,
      "loss": 0.5339,
      "step": 72910
    },
    {
      "epoch": 3.621734379656303,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0005102652230058608,
      "loss": 0.5733,
      "step": 72920
    },
    {
      "epoch": 3.622231051951922,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005102254892222111,
      "loss": 0.5275,
      "step": 72930
    },
    {
      "epoch": 3.6227277242475413,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005101857554385617,
      "loss": 0.5442,
      "step": 72940
    },
    {
      "epoch": 3.623224396543161,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005101460216549122,
      "loss": 0.5314,
      "step": 72950
    },
    {
      "epoch": 3.62372106883878,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005101062878712625,
      "loss": 0.5269,
      "step": 72960
    },
    {
      "epoch": 3.6242177411343994,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.000510066554087613,
      "loss": 0.5378,
      "step": 72970
    },
    {
      "epoch": 3.624714413430019,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005100268203039634,
      "loss": 0.5608,
      "step": 72980
    },
    {
      "epoch": 3.6252110857256383,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005099870865203139,
      "loss": 0.5212,
      "step": 72990
    },
    {
      "epoch": 3.6257077580212576,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005099473527366644,
      "loss": 0.5278,
      "step": 73000
    },
    {
      "epoch": 3.626204430316877,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005099076189530148,
      "loss": 0.5407,
      "step": 73010
    },
    {
      "epoch": 3.626701102612496,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005098678851693652,
      "loss": 0.5108,
      "step": 73020
    },
    {
      "epoch": 3.6271977749081157,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005098281513857157,
      "loss": 0.553,
      "step": 73030
    },
    {
      "epoch": 3.627694447203735,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005097884176020662,
      "loss": 0.5371,
      "step": 73040
    },
    {
      "epoch": 3.6281911194993546,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005097486838184167,
      "loss": 0.5203,
      "step": 73050
    },
    {
      "epoch": 3.628687791794974,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0005097089500347671,
      "loss": 0.5108,
      "step": 73060
    },
    {
      "epoch": 3.629184464090593,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0005096692162511175,
      "loss": 0.5054,
      "step": 73070
    },
    {
      "epoch": 3.6296811363862123,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.000509629482467468,
      "loss": 0.5246,
      "step": 73080
    },
    {
      "epoch": 3.6301778086818315,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005095897486838185,
      "loss": 0.5111,
      "step": 73090
    },
    {
      "epoch": 3.630674480977451,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005095500149001689,
      "loss": 0.5068,
      "step": 73100
    },
    {
      "epoch": 3.6311711532730704,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005095102811165194,
      "loss": 0.5182,
      "step": 73110
    },
    {
      "epoch": 3.63166782556869,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005094705473328697,
      "loss": 0.5182,
      "step": 73120
    },
    {
      "epoch": 3.6321644978643093,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005094308135492202,
      "loss": 0.5534,
      "step": 73130
    },
    {
      "epoch": 3.6326611701599285,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005093910797655708,
      "loss": 0.553,
      "step": 73140
    },
    {
      "epoch": 3.6331578424555477,
      "grad_norm": 0.125,
      "learning_rate": 0.0005093513459819211,
      "loss": 0.5526,
      "step": 73150
    },
    {
      "epoch": 3.633654514751167,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005093116121982716,
      "loss": 0.5402,
      "step": 73160
    },
    {
      "epoch": 3.6341511870467866,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005092718784146221,
      "loss": 0.515,
      "step": 73170
    },
    {
      "epoch": 3.634647859342406,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005092321446309725,
      "loss": 0.5568,
      "step": 73180
    },
    {
      "epoch": 3.635144531638025,
      "grad_norm": 0.1171875,
      "learning_rate": 0.000509192410847323,
      "loss": 0.5495,
      "step": 73190
    },
    {
      "epoch": 3.6356412039336448,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005091526770636734,
      "loss": 0.5464,
      "step": 73200
    },
    {
      "epoch": 3.636137876229264,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005091129432800239,
      "loss": 0.5332,
      "step": 73210
    },
    {
      "epoch": 3.636634548524883,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0005090732094963743,
      "loss": 0.5506,
      "step": 73220
    },
    {
      "epoch": 3.6371312208205024,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0005090334757127247,
      "loss": 0.5535,
      "step": 73230
    },
    {
      "epoch": 3.637627893116122,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005089937419290753,
      "loss": 0.5442,
      "step": 73240
    },
    {
      "epoch": 3.6381245654117413,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005089540081454257,
      "loss": 0.5157,
      "step": 73250
    },
    {
      "epoch": 3.6386212377073606,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005089142743617761,
      "loss": 0.5133,
      "step": 73260
    },
    {
      "epoch": 3.6391179100029802,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0005088745405781266,
      "loss": 0.5598,
      "step": 73270
    },
    {
      "epoch": 3.6396145822985995,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.000508834806794477,
      "loss": 0.5106,
      "step": 73280
    },
    {
      "epoch": 3.6401112545942187,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005087950730108275,
      "loss": 0.5276,
      "step": 73290
    },
    {
      "epoch": 3.640607926889838,
      "grad_norm": 0.138671875,
      "learning_rate": 0.000508755339227178,
      "loss": 0.5294,
      "step": 73300
    },
    {
      "epoch": 3.6411045991854576,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005087156054435283,
      "loss": 0.5231,
      "step": 73310
    },
    {
      "epoch": 3.641601271481077,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005086758716598788,
      "loss": 0.5216,
      "step": 73320
    },
    {
      "epoch": 3.642097943776696,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0005086361378762293,
      "loss": 0.536,
      "step": 73330
    },
    {
      "epoch": 3.6425946160723157,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005085964040925798,
      "loss": 0.5273,
      "step": 73340
    },
    {
      "epoch": 3.643091288367935,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005085566703089302,
      "loss": 0.5331,
      "step": 73350
    },
    {
      "epoch": 3.643587960663554,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005085169365252807,
      "loss": 0.5148,
      "step": 73360
    },
    {
      "epoch": 3.6440846329591734,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0005084772027416311,
      "loss": 0.5313,
      "step": 73370
    },
    {
      "epoch": 3.6445813052547926,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0005084374689579815,
      "loss": 0.5294,
      "step": 73380
    },
    {
      "epoch": 3.6450779775504123,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.000508397735174332,
      "loss": 0.5306,
      "step": 73390
    },
    {
      "epoch": 3.6455746498460315,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0005083580013906825,
      "loss": 0.5003,
      "step": 73400
    },
    {
      "epoch": 3.646071322141651,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005083182676070329,
      "loss": 0.5395,
      "step": 73410
    },
    {
      "epoch": 3.6465679944372704,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0005082785338233833,
      "loss": 0.5017,
      "step": 73420
    },
    {
      "epoch": 3.6470646667328896,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005082388000397338,
      "loss": 0.5296,
      "step": 73430
    },
    {
      "epoch": 3.647561339028509,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0005081990662560843,
      "loss": 0.5262,
      "step": 73440
    },
    {
      "epoch": 3.648058011324128,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0005081593324724347,
      "loss": 0.5517,
      "step": 73450
    },
    {
      "epoch": 3.6485546836197478,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005081195986887852,
      "loss": 0.5157,
      "step": 73460
    },
    {
      "epoch": 3.649051355915367,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005080798649051356,
      "loss": 0.5272,
      "step": 73470
    },
    {
      "epoch": 3.6495480282109862,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.000508040131121486,
      "loss": 0.5168,
      "step": 73480
    },
    {
      "epoch": 3.650044700506606,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005080003973378366,
      "loss": 0.5559,
      "step": 73490
    },
    {
      "epoch": 3.650541372802225,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.000507960663554187,
      "loss": 0.4941,
      "step": 73500
    },
    {
      "epoch": 3.6510380450978444,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005079209297705374,
      "loss": 0.5256,
      "step": 73510
    },
    {
      "epoch": 3.6515347173934636,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005078811959868879,
      "loss": 0.5269,
      "step": 73520
    },
    {
      "epoch": 3.6520313896890833,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005078414622032383,
      "loss": 0.5148,
      "step": 73530
    },
    {
      "epoch": 3.6525280619847025,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005078017284195888,
      "loss": 0.5282,
      "step": 73540
    },
    {
      "epoch": 3.6530247342803217,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005077619946359393,
      "loss": 0.5345,
      "step": 73550
    },
    {
      "epoch": 3.6535214065759414,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005077222608522897,
      "loss": 0.5298,
      "step": 73560
    },
    {
      "epoch": 3.6540180788715606,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005076825270686401,
      "loss": 0.5444,
      "step": 73570
    },
    {
      "epoch": 3.65451475116718,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0005076427932849905,
      "loss": 0.5165,
      "step": 73580
    },
    {
      "epoch": 3.655011423462799,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005076030595013411,
      "loss": 0.5404,
      "step": 73590
    },
    {
      "epoch": 3.6555080957584187,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005075633257176915,
      "loss": 0.5279,
      "step": 73600
    },
    {
      "epoch": 3.656004768054038,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0005075235919340419,
      "loss": 0.5495,
      "step": 73610
    },
    {
      "epoch": 3.656501440349657,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005074838581503924,
      "loss": 0.5339,
      "step": 73620
    },
    {
      "epoch": 3.656998112645277,
      "grad_norm": 0.140625,
      "learning_rate": 0.0005074441243667429,
      "loss": 0.4827,
      "step": 73630
    },
    {
      "epoch": 3.657494784940896,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0005074043905830932,
      "loss": 0.5288,
      "step": 73640
    },
    {
      "epoch": 3.6579914572365153,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005073646567994438,
      "loss": 0.5439,
      "step": 73650
    },
    {
      "epoch": 3.6584881295321345,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0005073249230157942,
      "loss": 0.5207,
      "step": 73660
    },
    {
      "epoch": 3.658984801827754,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005072851892321446,
      "loss": 0.5458,
      "step": 73670
    },
    {
      "epoch": 3.6594814741233734,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0005072454554484951,
      "loss": 0.5007,
      "step": 73680
    },
    {
      "epoch": 3.6599781464189927,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0005072057216648456,
      "loss": 0.5203,
      "step": 73690
    },
    {
      "epoch": 3.6604748187146123,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.000507165987881196,
      "loss": 0.5408,
      "step": 73700
    },
    {
      "epoch": 3.6609714910102316,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005071262540975465,
      "loss": 0.5383,
      "step": 73710
    },
    {
      "epoch": 3.661468163305851,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005070865203138969,
      "loss": 0.5536,
      "step": 73720
    },
    {
      "epoch": 3.66196483560147,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005070467865302473,
      "loss": 0.5546,
      "step": 73730
    },
    {
      "epoch": 3.6624615078970892,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005070070527465979,
      "loss": 0.5166,
      "step": 73740
    },
    {
      "epoch": 3.662958180192709,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005069673189629483,
      "loss": 0.5149,
      "step": 73750
    },
    {
      "epoch": 3.663454852488328,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005069275851792987,
      "loss": 0.5278,
      "step": 73760
    },
    {
      "epoch": 3.663951524783948,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0005068878513956492,
      "loss": 0.5433,
      "step": 73770
    },
    {
      "epoch": 3.664448197079567,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0005068481176119996,
      "loss": 0.515,
      "step": 73780
    },
    {
      "epoch": 3.6649448693751863,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005068083838283502,
      "loss": 0.5293,
      "step": 73790
    },
    {
      "epoch": 3.6654415416708055,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005067686500447005,
      "loss": 0.5491,
      "step": 73800
    },
    {
      "epoch": 3.6659382139664247,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.000506728916261051,
      "loss": 0.5319,
      "step": 73810
    },
    {
      "epoch": 3.6664348862620444,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0005066891824774015,
      "loss": 0.5304,
      "step": 73820
    },
    {
      "epoch": 3.6669315585576636,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0005066494486937518,
      "loss": 0.5555,
      "step": 73830
    },
    {
      "epoch": 3.667428230853283,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005066097149101024,
      "loss": 0.5552,
      "step": 73840
    },
    {
      "epoch": 3.6679249031489025,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005065699811264528,
      "loss": 0.531,
      "step": 73850
    },
    {
      "epoch": 3.6684215754445217,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005065302473428032,
      "loss": 0.5315,
      "step": 73860
    },
    {
      "epoch": 3.668918247740141,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0005064905135591537,
      "loss": 0.5336,
      "step": 73870
    },
    {
      "epoch": 3.66941492003576,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005064507797755041,
      "loss": 0.5378,
      "step": 73880
    },
    {
      "epoch": 3.66991159233138,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0005064110459918545,
      "loss": 0.5245,
      "step": 73890
    },
    {
      "epoch": 3.670408264626999,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0005063713122082051,
      "loss": 0.5215,
      "step": 73900
    },
    {
      "epoch": 3.6709049369226183,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0005063315784245555,
      "loss": 0.526,
      "step": 73910
    },
    {
      "epoch": 3.671401609218238,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005062918446409059,
      "loss": 0.5362,
      "step": 73920
    },
    {
      "epoch": 3.671898281513857,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005062521108572564,
      "loss": 0.5355,
      "step": 73930
    },
    {
      "epoch": 3.6723949538094764,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005062123770736068,
      "loss": 0.5274,
      "step": 73940
    },
    {
      "epoch": 3.6728916261050957,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0005061726432899574,
      "loss": 0.5348,
      "step": 73950
    },
    {
      "epoch": 3.6733882984007153,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0005061329095063078,
      "loss": 0.4846,
      "step": 73960
    },
    {
      "epoch": 3.6738849706963346,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005060931757226582,
      "loss": 0.5432,
      "step": 73970
    },
    {
      "epoch": 3.674381642991954,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005060534419390087,
      "loss": 0.5665,
      "step": 73980
    },
    {
      "epoch": 3.6748783152875735,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.000506013708155359,
      "loss": 0.5178,
      "step": 73990
    },
    {
      "epoch": 3.6753749875831927,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0005059739743717096,
      "loss": 0.5502,
      "step": 74000
    },
    {
      "epoch": 3.675871659878812,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005059342405880601,
      "loss": 0.5316,
      "step": 74010
    },
    {
      "epoch": 3.676368332174431,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005058945068044104,
      "loss": 0.521,
      "step": 74020
    },
    {
      "epoch": 3.676865004470051,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0005058547730207609,
      "loss": 0.5134,
      "step": 74030
    },
    {
      "epoch": 3.67736167676567,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0005058150392371115,
      "loss": 0.5453,
      "step": 74040
    },
    {
      "epoch": 3.6778583490612893,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005057753054534618,
      "loss": 0.5439,
      "step": 74050
    },
    {
      "epoch": 3.678355021356909,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005057355716698123,
      "loss": 0.5378,
      "step": 74060
    },
    {
      "epoch": 3.678851693652528,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0005056958378861627,
      "loss": 0.5359,
      "step": 74070
    },
    {
      "epoch": 3.6793483659481474,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005056561041025132,
      "loss": 0.5216,
      "step": 74080
    },
    {
      "epoch": 3.6798450382437666,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005056163703188636,
      "loss": 0.5172,
      "step": 74090
    },
    {
      "epoch": 3.680341710539386,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005055766365352141,
      "loss": 0.5365,
      "step": 74100
    },
    {
      "epoch": 3.6808383828350055,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005055369027515646,
      "loss": 0.5234,
      "step": 74110
    },
    {
      "epoch": 3.6813350551306248,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.000505497168967915,
      "loss": 0.5581,
      "step": 74120
    },
    {
      "epoch": 3.6818317274262444,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005054574351842654,
      "loss": 0.5291,
      "step": 74130
    },
    {
      "epoch": 3.6823283997218637,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.000505417701400616,
      "loss": 0.5433,
      "step": 74140
    },
    {
      "epoch": 3.682825072017483,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005053779676169664,
      "loss": 0.5088,
      "step": 74150
    },
    {
      "epoch": 3.683321744313102,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005053382338333168,
      "loss": 0.552,
      "step": 74160
    },
    {
      "epoch": 3.6838184166087213,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005052985000496673,
      "loss": 0.5277,
      "step": 74170
    },
    {
      "epoch": 3.684315088904341,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005052587662660176,
      "loss": 0.5309,
      "step": 74180
    },
    {
      "epoch": 3.6848117611999602,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005052190324823681,
      "loss": 0.5292,
      "step": 74190
    },
    {
      "epoch": 3.6853084334955795,
      "grad_norm": 0.1875,
      "learning_rate": 0.0005051792986987187,
      "loss": 0.5,
      "step": 74200
    },
    {
      "epoch": 3.685805105791199,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.000505139564915069,
      "loss": 0.5177,
      "step": 74210
    },
    {
      "epoch": 3.6863017780868184,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0005050998311314195,
      "loss": 0.5462,
      "step": 74220
    },
    {
      "epoch": 3.6867984503824376,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.00050506009734777,
      "loss": 0.5618,
      "step": 74230
    },
    {
      "epoch": 3.687295122678057,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005050203635641204,
      "loss": 0.5204,
      "step": 74240
    },
    {
      "epoch": 3.6877917949736765,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005049806297804709,
      "loss": 0.5339,
      "step": 74250
    },
    {
      "epoch": 3.6882884672692957,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005049408959968213,
      "loss": 0.5595,
      "step": 74260
    },
    {
      "epoch": 3.688785139564915,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0005049011622131718,
      "loss": 0.5333,
      "step": 74270
    },
    {
      "epoch": 3.6892818118605346,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0005048614284295222,
      "loss": 0.5175,
      "step": 74280
    },
    {
      "epoch": 3.689778484156154,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005048216946458726,
      "loss": 0.5102,
      "step": 74290
    },
    {
      "epoch": 3.690275156451773,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005047819608622232,
      "loss": 0.5456,
      "step": 74300
    },
    {
      "epoch": 3.6907718287473923,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005047422270785736,
      "loss": 0.5277,
      "step": 74310
    },
    {
      "epoch": 3.691268501043012,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.000504702493294924,
      "loss": 0.5348,
      "step": 74320
    },
    {
      "epoch": 3.691765173338631,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0005046627595112745,
      "loss": 0.5225,
      "step": 74330
    },
    {
      "epoch": 3.6922618456342504,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0005046230257276249,
      "loss": 0.5521,
      "step": 74340
    },
    {
      "epoch": 3.69275851792987,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005045832919439754,
      "loss": 0.5586,
      "step": 74350
    },
    {
      "epoch": 3.6932551902254893,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0005045435581603259,
      "loss": 0.524,
      "step": 74360
    },
    {
      "epoch": 3.6937518625211085,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0005045038243766763,
      "loss": 0.5222,
      "step": 74370
    },
    {
      "epoch": 3.6942485348167278,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0005044640905930267,
      "loss": 0.5279,
      "step": 74380
    },
    {
      "epoch": 3.694745207112347,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005044243568093772,
      "loss": 0.5513,
      "step": 74390
    },
    {
      "epoch": 3.6952418794079667,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005043846230257277,
      "loss": 0.5075,
      "step": 74400
    },
    {
      "epoch": 3.695738551703586,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0005043448892420781,
      "loss": 0.5501,
      "step": 74410
    },
    {
      "epoch": 3.6962352239992056,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0005043051554584286,
      "loss": 0.5157,
      "step": 74420
    },
    {
      "epoch": 3.696731896294825,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.000504265421674779,
      "loss": 0.5792,
      "step": 74430
    },
    {
      "epoch": 3.697228568590444,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005042256878911294,
      "loss": 0.5353,
      "step": 74440
    },
    {
      "epoch": 3.6977252408860632,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005041859541074799,
      "loss": 0.5202,
      "step": 74450
    },
    {
      "epoch": 3.6982219131816825,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005041462203238304,
      "loss": 0.5369,
      "step": 74460
    },
    {
      "epoch": 3.698718585477302,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005041064865401808,
      "loss": 0.5329,
      "step": 74470
    },
    {
      "epoch": 3.6992152577729214,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0005040667527565312,
      "loss": 0.5314,
      "step": 74480
    },
    {
      "epoch": 3.699711930068541,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0005040270189728817,
      "loss": 0.5389,
      "step": 74490
    },
    {
      "epoch": 3.7002086023641603,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005039872851892322,
      "loss": 0.55,
      "step": 74500
    },
    {
      "epoch": 3.7007052746597795,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0005039475514055826,
      "loss": 0.5334,
      "step": 74510
    },
    {
      "epoch": 3.7012019469553987,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005039078176219331,
      "loss": 0.5203,
      "step": 74520
    },
    {
      "epoch": 3.701698619251018,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0005038680838382835,
      "loss": 0.5108,
      "step": 74530
    },
    {
      "epoch": 3.7021952915466376,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0005038283500546339,
      "loss": 0.5133,
      "step": 74540
    },
    {
      "epoch": 3.702691963842257,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005037886162709845,
      "loss": 0.5255,
      "step": 74550
    },
    {
      "epoch": 3.703188636137876,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0005037488824873349,
      "loss": 0.4999,
      "step": 74560
    },
    {
      "epoch": 3.7036853084334957,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0005037091487036853,
      "loss": 0.531,
      "step": 74570
    },
    {
      "epoch": 3.704181980729115,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0005036694149200358,
      "loss": 0.5445,
      "step": 74580
    },
    {
      "epoch": 3.704678653024734,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0005036296811363862,
      "loss": 0.5408,
      "step": 74590
    },
    {
      "epoch": 3.7051753253203534,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0005035899473527367,
      "loss": 0.5694,
      "step": 74600
    },
    {
      "epoch": 3.705671997615973,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0005035502135690872,
      "loss": 0.5388,
      "step": 74610
    },
    {
      "epoch": 3.7061686699115923,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0005035104797854376,
      "loss": 0.5405,
      "step": 74620
    },
    {
      "epoch": 3.7066653422072116,
      "grad_norm": 0.140625,
      "learning_rate": 0.000503470746001788,
      "loss": 0.5164,
      "step": 74630
    },
    {
      "epoch": 3.7071620145028312,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0005034310122181385,
      "loss": 0.5371,
      "step": 74640
    },
    {
      "epoch": 3.7076586867984505,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.000503391278434489,
      "loss": 0.536,
      "step": 74650
    },
    {
      "epoch": 3.7081553590940697,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0005033515446508394,
      "loss": 0.5447,
      "step": 74660
    },
    {
      "epoch": 3.708652031389689,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0005033118108671898,
      "loss": 0.5733,
      "step": 74670
    },
    {
      "epoch": 3.7091487036853086,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0005032720770835403,
      "loss": 0.5171,
      "step": 74680
    },
    {
      "epoch": 3.709645375980928,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005032323432998908,
      "loss": 0.5562,
      "step": 74690
    },
    {
      "epoch": 3.710142048276547,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0005031926095162412,
      "loss": 0.5388,
      "step": 74700
    },
    {
      "epoch": 3.7106387205721667,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005031528757325917,
      "loss": 0.5385,
      "step": 74710
    },
    {
      "epoch": 3.711135392867786,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005031131419489421,
      "loss": 0.5191,
      "step": 74720
    },
    {
      "epoch": 3.711632065163405,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005030734081652925,
      "loss": 0.5243,
      "step": 74730
    },
    {
      "epoch": 3.7121287374590244,
      "grad_norm": 0.09765625,
      "learning_rate": 0.000503033674381643,
      "loss": 0.5402,
      "step": 74740
    },
    {
      "epoch": 3.7126254097546436,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0005029939405979935,
      "loss": 0.5371,
      "step": 74750
    },
    {
      "epoch": 3.7131220820502633,
      "grad_norm": 0.0927734375,
      "learning_rate": 0.0005029542068143439,
      "loss": 0.5397,
      "step": 74760
    },
    {
      "epoch": 3.7136187543458825,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005029144730306944,
      "loss": 0.5406,
      "step": 74770
    },
    {
      "epoch": 3.714115426641502,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005028747392470448,
      "loss": 0.5853,
      "step": 74780
    },
    {
      "epoch": 3.7146120989371214,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0005028350054633952,
      "loss": 0.5466,
      "step": 74790
    },
    {
      "epoch": 3.7151087712327406,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0005027952716797458,
      "loss": 0.5634,
      "step": 74800
    },
    {
      "epoch": 3.71560544352836,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0005027555378960962,
      "loss": 0.526,
      "step": 74810
    },
    {
      "epoch": 3.716102115823979,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005027158041124467,
      "loss": 0.5252,
      "step": 74820
    },
    {
      "epoch": 3.7165987881195988,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0005026760703287971,
      "loss": 0.5454,
      "step": 74830
    },
    {
      "epoch": 3.717095460415218,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0005026363365451475,
      "loss": 0.5045,
      "step": 74840
    },
    {
      "epoch": 3.7175921327108377,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0005025966027614981,
      "loss": 0.5203,
      "step": 74850
    },
    {
      "epoch": 3.718088805006457,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005025568689778484,
      "loss": 0.5681,
      "step": 74860
    },
    {
      "epoch": 3.718585477302076,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005025171351941989,
      "loss": 0.5234,
      "step": 74870
    },
    {
      "epoch": 3.7190821495976953,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0005024774014105494,
      "loss": 0.5626,
      "step": 74880
    },
    {
      "epoch": 3.7195788218933146,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0005024376676268997,
      "loss": 0.5342,
      "step": 74890
    },
    {
      "epoch": 3.7200754941889342,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0005023979338432503,
      "loss": 0.5172,
      "step": 74900
    },
    {
      "epoch": 3.7205721664845535,
      "grad_norm": 0.125,
      "learning_rate": 0.0005023582000596008,
      "loss": 0.5401,
      "step": 74910
    },
    {
      "epoch": 3.7210688387801727,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0005023184662759511,
      "loss": 0.5451,
      "step": 74920
    },
    {
      "epoch": 3.7215655110757924,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0005022787324923016,
      "loss": 0.534,
      "step": 74930
    },
    {
      "epoch": 3.7220621833714116,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.000502238998708652,
      "loss": 0.5271,
      "step": 74940
    },
    {
      "epoch": 3.722558855667031,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005021992649250024,
      "loss": 0.5351,
      "step": 74950
    },
    {
      "epoch": 3.72305552796265,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.000502159531141353,
      "loss": 0.5425,
      "step": 74960
    },
    {
      "epoch": 3.7235522002582697,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005021197973577034,
      "loss": 0.5562,
      "step": 74970
    },
    {
      "epoch": 3.724048872553889,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0005020800635740539,
      "loss": 0.5429,
      "step": 74980
    },
    {
      "epoch": 3.724545544849508,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005020403297904043,
      "loss": 0.5185,
      "step": 74990
    },
    {
      "epoch": 3.725042217145128,
      "grad_norm": 0.109375,
      "learning_rate": 0.0005020005960067548,
      "loss": 0.5465,
      "step": 75000
    },
    {
      "epoch": 3.725538889440747,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0005019608622231053,
      "loss": 0.5251,
      "step": 75010
    },
    {
      "epoch": 3.7260355617363663,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0005019211284394557,
      "loss": 0.5146,
      "step": 75020
    },
    {
      "epoch": 3.7265322340319855,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005018813946558061,
      "loss": 0.499,
      "step": 75030
    },
    {
      "epoch": 3.727028906327605,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0005018416608721566,
      "loss": 0.5298,
      "step": 75040
    },
    {
      "epoch": 3.7275255786232244,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0005018019270885069,
      "loss": 0.5222,
      "step": 75050
    },
    {
      "epoch": 3.7280222509188436,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0005017621933048575,
      "loss": 0.5474,
      "step": 75060
    },
    {
      "epoch": 3.7285189232144633,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.000501722459521208,
      "loss": 0.5366,
      "step": 75070
    },
    {
      "epoch": 3.7290155955100825,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0005016827257375583,
      "loss": 0.5366,
      "step": 75080
    },
    {
      "epoch": 3.7295122678057018,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0005016429919539088,
      "loss": 0.5356,
      "step": 75090
    },
    {
      "epoch": 3.730008940101321,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0005016032581702594,
      "loss": 0.5207,
      "step": 75100
    },
    {
      "epoch": 3.7305056123969402,
      "grad_norm": 0.15625,
      "learning_rate": 0.0005015635243866097,
      "loss": 0.5548,
      "step": 75110
    },
    {
      "epoch": 3.73100228469256,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0005015237906029602,
      "loss": 0.558,
      "step": 75120
    },
    {
      "epoch": 3.731498956988179,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0005014840568193106,
      "loss": 0.5615,
      "step": 75130
    },
    {
      "epoch": 3.731995629283799,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0005014443230356611,
      "loss": 0.5319,
      "step": 75140
    },
    {
      "epoch": 3.732492301579418,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005014045892520116,
      "loss": 0.5452,
      "step": 75150
    },
    {
      "epoch": 3.7329889738750373,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.000501364855468362,
      "loss": 0.5418,
      "step": 75160
    },
    {
      "epoch": 3.7334856461706565,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005013251216847125,
      "loss": 0.5408,
      "step": 75170
    },
    {
      "epoch": 3.7339823184662757,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0005012853879010629,
      "loss": 0.5412,
      "step": 75180
    },
    {
      "epoch": 3.7344789907618954,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0005012456541174133,
      "loss": 0.5283,
      "step": 75190
    },
    {
      "epoch": 3.7349756630575146,
      "grad_norm": 0.140625,
      "learning_rate": 0.0005012059203337639,
      "loss": 0.5539,
      "step": 75200
    },
    {
      "epoch": 3.7354723353531343,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005011661865501143,
      "loss": 0.5243,
      "step": 75210
    },
    {
      "epoch": 3.7359690076487535,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0005011264527664647,
      "loss": 0.5207,
      "step": 75220
    },
    {
      "epoch": 3.7364656799443727,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0005010867189828152,
      "loss": 0.5092,
      "step": 75230
    },
    {
      "epoch": 3.736962352239992,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0005010469851991655,
      "loss": 0.5549,
      "step": 75240
    },
    {
      "epoch": 3.737459024535611,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.000501007251415516,
      "loss": 0.5267,
      "step": 75250
    },
    {
      "epoch": 3.737955696831231,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005009675176318666,
      "loss": 0.504,
      "step": 75260
    },
    {
      "epoch": 3.73845236912685,
      "grad_norm": 0.109375,
      "learning_rate": 0.000500927783848217,
      "loss": 0.5222,
      "step": 75270
    },
    {
      "epoch": 3.7389490414224693,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005008880500645674,
      "loss": 0.5661,
      "step": 75280
    },
    {
      "epoch": 3.739445713718089,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0005008483162809179,
      "loss": 0.5216,
      "step": 75290
    },
    {
      "epoch": 3.739942386013708,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.0005008085824972683,
      "loss": 0.5375,
      "step": 75300
    },
    {
      "epoch": 3.7404390583093274,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005007688487136188,
      "loss": 0.5243,
      "step": 75310
    },
    {
      "epoch": 3.7409357306049467,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0005007291149299692,
      "loss": 0.5113,
      "step": 75320
    },
    {
      "epoch": 3.7414324029005663,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0005006893811463197,
      "loss": 0.5147,
      "step": 75330
    },
    {
      "epoch": 3.7419290751961856,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0005006496473626701,
      "loss": 0.535,
      "step": 75340
    },
    {
      "epoch": 3.742425747491805,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0005006099135790205,
      "loss": 0.5412,
      "step": 75350
    },
    {
      "epoch": 3.7429224197874245,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0005005701797953711,
      "loss": 0.5162,
      "step": 75360
    },
    {
      "epoch": 3.7434190920830437,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0005005304460117215,
      "loss": 0.5369,
      "step": 75370
    },
    {
      "epoch": 3.743915764378663,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0005004907122280719,
      "loss": 0.5315,
      "step": 75380
    },
    {
      "epoch": 3.744412436674282,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0005004509784444224,
      "loss": 0.538,
      "step": 75390
    },
    {
      "epoch": 3.744909108969902,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0005004112446607728,
      "loss": 0.5474,
      "step": 75400
    },
    {
      "epoch": 3.745405781265521,
      "grad_norm": 0.09326171875,
      "learning_rate": 0.0005003715108771233,
      "loss": 0.5329,
      "step": 75410
    },
    {
      "epoch": 3.7459024535611403,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0005003317770934738,
      "loss": 0.5152,
      "step": 75420
    },
    {
      "epoch": 3.74639912585676,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0005002920433098242,
      "loss": 0.5356,
      "step": 75430
    },
    {
      "epoch": 3.746895798152379,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0005002523095261746,
      "loss": 0.5321,
      "step": 75440
    },
    {
      "epoch": 3.7473924704479984,
      "grad_norm": 0.09765625,
      "learning_rate": 0.0005002125757425251,
      "loss": 0.5199,
      "step": 75450
    },
    {
      "epoch": 3.7478891427436176,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0005001728419588756,
      "loss": 0.5606,
      "step": 75460
    },
    {
      "epoch": 3.748385815039237,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.000500133108175226,
      "loss": 0.5587,
      "step": 75470
    },
    {
      "epoch": 3.7488824873348565,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005000933743915765,
      "loss": 0.5451,
      "step": 75480
    },
    {
      "epoch": 3.7493791596304757,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0005000536406079269,
      "loss": 0.5322,
      "step": 75490
    },
    {
      "epoch": 3.7498758319260954,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0005000139068242773,
      "loss": 0.5317,
      "step": 75500
    },
    {
      "epoch": 3.7503725042217146,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0004999741730406278,
      "loss": 0.5438,
      "step": 75510
    },
    {
      "epoch": 3.750869176517334,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004999344392569783,
      "loss": 0.5394,
      "step": 75520
    },
    {
      "epoch": 3.751365848812953,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0004998947054733287,
      "loss": 0.5357,
      "step": 75530
    },
    {
      "epoch": 3.7518625211085723,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0004998549716896791,
      "loss": 0.524,
      "step": 75540
    },
    {
      "epoch": 3.752359193404192,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0004998152379060296,
      "loss": 0.5782,
      "step": 75550
    },
    {
      "epoch": 3.752855865699811,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0004997755041223801,
      "loss": 0.523,
      "step": 75560
    },
    {
      "epoch": 3.7533525379954304,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0004997357703387305,
      "loss": 0.5524,
      "step": 75570
    },
    {
      "epoch": 3.75384921029105,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.000499696036555081,
      "loss": 0.5031,
      "step": 75580
    },
    {
      "epoch": 3.7543458825866693,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0004996563027714314,
      "loss": 0.5556,
      "step": 75590
    },
    {
      "epoch": 3.7548425548822886,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0004996165689877818,
      "loss": 0.5152,
      "step": 75600
    },
    {
      "epoch": 3.755339227177908,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0004995768352041324,
      "loss": 0.5316,
      "step": 75610
    },
    {
      "epoch": 3.7558358994735275,
      "grad_norm": 0.15625,
      "learning_rate": 0.0004995371014204828,
      "loss": 0.5134,
      "step": 75620
    },
    {
      "epoch": 3.7563325717691467,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0004994973676368332,
      "loss": 0.5617,
      "step": 75630
    },
    {
      "epoch": 3.756829244064766,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0004994576338531837,
      "loss": 0.528,
      "step": 75640
    },
    {
      "epoch": 3.7573259163603856,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0004994179000695341,
      "loss": 0.5361,
      "step": 75650
    },
    {
      "epoch": 3.757822588656005,
      "grad_norm": 0.15625,
      "learning_rate": 0.0004993781662858846,
      "loss": 0.5295,
      "step": 75660
    },
    {
      "epoch": 3.758319260951624,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0004993384325022351,
      "loss": 0.5404,
      "step": 75670
    },
    {
      "epoch": 3.7588159332472433,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0004992986987185855,
      "loss": 0.5221,
      "step": 75680
    },
    {
      "epoch": 3.759312605542863,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004992589649349359,
      "loss": 0.5524,
      "step": 75690
    },
    {
      "epoch": 3.759809277838482,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004992192311512864,
      "loss": 0.5441,
      "step": 75700
    },
    {
      "epoch": 3.7603059501341014,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0004991794973676369,
      "loss": 0.5298,
      "step": 75710
    },
    {
      "epoch": 3.760802622429721,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0004991397635839874,
      "loss": 0.5343,
      "step": 75720
    },
    {
      "epoch": 3.7612992947253403,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0004991000298003377,
      "loss": 0.5252,
      "step": 75730
    },
    {
      "epoch": 3.7617959670209595,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0004990602960166882,
      "loss": 0.5356,
      "step": 75740
    },
    {
      "epoch": 3.7622926393165788,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0004990205622330387,
      "loss": 0.5323,
      "step": 75750
    },
    {
      "epoch": 3.7627893116121984,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0004989808284493891,
      "loss": 0.5198,
      "step": 75760
    },
    {
      "epoch": 3.7632859839078177,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0004989410946657396,
      "loss": 0.5332,
      "step": 75770
    },
    {
      "epoch": 3.763782656203437,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.00049890136088209,
      "loss": 0.5421,
      "step": 75780
    },
    {
      "epoch": 3.7642793284990566,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0004988616270984404,
      "loss": 0.4969,
      "step": 75790
    },
    {
      "epoch": 3.764776000794676,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0004988218933147909,
      "loss": 0.5289,
      "step": 75800
    },
    {
      "epoch": 3.765272673090295,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0004987821595311414,
      "loss": 0.5358,
      "step": 75810
    },
    {
      "epoch": 3.7657693453859142,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0004987424257474918,
      "loss": 0.5283,
      "step": 75820
    },
    {
      "epoch": 3.7662660176815335,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0004987026919638423,
      "loss": 0.5582,
      "step": 75830
    },
    {
      "epoch": 3.766762689977153,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0004986629581801927,
      "loss": 0.526,
      "step": 75840
    },
    {
      "epoch": 3.7672593622727724,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0004986232243965431,
      "loss": 0.5216,
      "step": 75850
    },
    {
      "epoch": 3.767756034568392,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0004985834906128937,
      "loss": 0.5394,
      "step": 75860
    },
    {
      "epoch": 3.7682527068640113,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0004985437568292441,
      "loss": 0.5392,
      "step": 75870
    },
    {
      "epoch": 3.7687493791596305,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0004985040230455946,
      "loss": 0.5583,
      "step": 75880
    },
    {
      "epoch": 3.7692460514552497,
      "grad_norm": 0.134765625,
      "learning_rate": 0.000498464289261945,
      "loss": 0.5372,
      "step": 75890
    },
    {
      "epoch": 3.769742723750869,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0004984245554782954,
      "loss": 0.5437,
      "step": 75900
    },
    {
      "epoch": 3.7702393960464886,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.000498384821694646,
      "loss": 0.5374,
      "step": 75910
    },
    {
      "epoch": 3.770736068342108,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0004983450879109963,
      "loss": 0.5581,
      "step": 75920
    },
    {
      "epoch": 3.771232740637727,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0004983053541273468,
      "loss": 0.5358,
      "step": 75930
    },
    {
      "epoch": 3.7717294129333467,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0004982656203436973,
      "loss": 0.5459,
      "step": 75940
    },
    {
      "epoch": 3.772226085228966,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0004982258865600476,
      "loss": 0.5242,
      "step": 75950
    },
    {
      "epoch": 3.772722757524585,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0004981861527763982,
      "loss": 0.5467,
      "step": 75960
    },
    {
      "epoch": 3.7732194298202044,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0004981464189927487,
      "loss": 0.5221,
      "step": 75970
    },
    {
      "epoch": 3.773716102115824,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.000498106685209099,
      "loss": 0.5415,
      "step": 75980
    },
    {
      "epoch": 3.7742127744114433,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0004980669514254495,
      "loss": 0.5212,
      "step": 75990
    },
    {
      "epoch": 3.7747094467070625,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0004980272176417999,
      "loss": 0.5402,
      "step": 76000
    },
    {
      "epoch": 3.775206119002682,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0004979874838581504,
      "loss": 0.5187,
      "step": 76010
    },
    {
      "epoch": 3.7757027912983014,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0004979477500745009,
      "loss": 0.5301,
      "step": 76020
    },
    {
      "epoch": 3.7761994635939207,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0004979080162908513,
      "loss": 0.5241,
      "step": 76030
    },
    {
      "epoch": 3.77669613588954,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0004978682825072018,
      "loss": 0.5217,
      "step": 76040
    },
    {
      "epoch": 3.7771928081851596,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0004978285487235522,
      "loss": 0.5234,
      "step": 76050
    },
    {
      "epoch": 3.777689480480779,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0004977888149399027,
      "loss": 0.5231,
      "step": 76060
    },
    {
      "epoch": 3.778186152776398,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0004977490811562532,
      "loss": 0.5186,
      "step": 76070
    },
    {
      "epoch": 3.7786828250720177,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0004977093473726036,
      "loss": 0.5255,
      "step": 76080
    },
    {
      "epoch": 3.779179497367637,
      "grad_norm": 0.12890625,
      "learning_rate": 0.000497669613588954,
      "loss": 0.5878,
      "step": 76090
    },
    {
      "epoch": 3.779676169663256,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0004976298798053045,
      "loss": 0.5512,
      "step": 76100
    },
    {
      "epoch": 3.7801728419588754,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0004975901460216548,
      "loss": 0.5578,
      "step": 76110
    },
    {
      "epoch": 3.780669514254495,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0004975504122380054,
      "loss": 0.5282,
      "step": 76120
    },
    {
      "epoch": 3.7811661865501143,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0004975106784543559,
      "loss": 0.5399,
      "step": 76130
    },
    {
      "epoch": 3.7816628588457335,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0004974709446707062,
      "loss": 0.5211,
      "step": 76140
    },
    {
      "epoch": 3.782159531141353,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0004974312108870567,
      "loss": 0.4971,
      "step": 76150
    },
    {
      "epoch": 3.7826562034369724,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0004973914771034073,
      "loss": 0.5228,
      "step": 76160
    },
    {
      "epoch": 3.7831528757325916,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0004973517433197577,
      "loss": 0.5268,
      "step": 76170
    },
    {
      "epoch": 3.783649548028211,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0004973120095361081,
      "loss": 0.5358,
      "step": 76180
    },
    {
      "epoch": 3.78414622032383,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0004972722757524585,
      "loss": 0.5051,
      "step": 76190
    },
    {
      "epoch": 3.7846428926194497,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.000497232541968809,
      "loss": 0.552,
      "step": 76200
    },
    {
      "epoch": 3.785139564915069,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0004971928081851595,
      "loss": 0.5174,
      "step": 76210
    },
    {
      "epoch": 3.7856362372106886,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0004971530744015099,
      "loss": 0.5515,
      "step": 76220
    },
    {
      "epoch": 3.786132909506308,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0004971133406178604,
      "loss": 0.4994,
      "step": 76230
    },
    {
      "epoch": 3.786629581801927,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004970736068342108,
      "loss": 0.5371,
      "step": 76240
    },
    {
      "epoch": 3.7871262540975463,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004970338730505612,
      "loss": 0.5338,
      "step": 76250
    },
    {
      "epoch": 3.7876229263931656,
      "grad_norm": 0.09423828125,
      "learning_rate": 0.0004969941392669118,
      "loss": 0.536,
      "step": 76260
    },
    {
      "epoch": 3.7881195986887852,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0004969544054832622,
      "loss": 0.5196,
      "step": 76270
    },
    {
      "epoch": 3.7886162709844045,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0004969146716996126,
      "loss": 0.5345,
      "step": 76280
    },
    {
      "epoch": 3.7891129432800237,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0004968749379159631,
      "loss": 0.517,
      "step": 76290
    },
    {
      "epoch": 3.7896096155756434,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0004968352041323135,
      "loss": 0.5606,
      "step": 76300
    },
    {
      "epoch": 3.7901062878712626,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.000496795470348664,
      "loss": 0.5667,
      "step": 76310
    },
    {
      "epoch": 3.790602960166882,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0004967557365650145,
      "loss": 0.5437,
      "step": 76320
    },
    {
      "epoch": 3.791099632462501,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0004967160027813649,
      "loss": 0.5455,
      "step": 76330
    },
    {
      "epoch": 3.7915963047581207,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0004966762689977153,
      "loss": 0.5301,
      "step": 76340
    },
    {
      "epoch": 3.79209297705374,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0004966365352140658,
      "loss": 0.5488,
      "step": 76350
    },
    {
      "epoch": 3.792589649349359,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0004965968014304163,
      "loss": 0.5309,
      "step": 76360
    },
    {
      "epoch": 3.793086321644979,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0004965570676467667,
      "loss": 0.5257,
      "step": 76370
    },
    {
      "epoch": 3.793582993940598,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0004965173338631171,
      "loss": 0.5463,
      "step": 76380
    },
    {
      "epoch": 3.7940796662362173,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0004964776000794676,
      "loss": 0.5615,
      "step": 76390
    },
    {
      "epoch": 3.7945763385318365,
      "grad_norm": 0.1015625,
      "learning_rate": 0.000496437866295818,
      "loss": 0.5293,
      "step": 76400
    },
    {
      "epoch": 3.795073010827456,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0004963981325121684,
      "loss": 0.5131,
      "step": 76410
    },
    {
      "epoch": 3.7955696831230754,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.000496358398728519,
      "loss": 0.5213,
      "step": 76420
    },
    {
      "epoch": 3.7960663554186946,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0004963186649448694,
      "loss": 0.5412,
      "step": 76430
    },
    {
      "epoch": 3.7965630277143143,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0004962789311612198,
      "loss": 0.5338,
      "step": 76440
    },
    {
      "epoch": 3.7970597000099335,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0004962391973775703,
      "loss": 0.5537,
      "step": 76450
    },
    {
      "epoch": 3.7975563723055528,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0004961994635939207,
      "loss": 0.5441,
      "step": 76460
    },
    {
      "epoch": 3.798053044601172,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0004961597298102712,
      "loss": 0.5135,
      "step": 76470
    },
    {
      "epoch": 3.7985497168967917,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0004961199960266217,
      "loss": 0.5597,
      "step": 76480
    },
    {
      "epoch": 3.799046389192411,
      "grad_norm": 0.109375,
      "learning_rate": 0.0004960802622429721,
      "loss": 0.5418,
      "step": 76490
    },
    {
      "epoch": 3.79954306148803,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0004960405284593225,
      "loss": 0.5386,
      "step": 76500
    },
    {
      "epoch": 3.80003973378365,
      "grad_norm": 0.130859375,
      "learning_rate": 0.000496000794675673,
      "loss": 0.5257,
      "step": 76510
    },
    {
      "epoch": 3.800536406079269,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0004959610608920235,
      "loss": 0.5425,
      "step": 76520
    },
    {
      "epoch": 3.8010330783748882,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0004959213271083739,
      "loss": 0.5369,
      "step": 76530
    },
    {
      "epoch": 3.8015297506705075,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004958815933247244,
      "loss": 0.5424,
      "step": 76540
    },
    {
      "epoch": 3.8020264229661267,
      "grad_norm": 0.09375,
      "learning_rate": 0.0004958418595410748,
      "loss": 0.5137,
      "step": 76550
    },
    {
      "epoch": 3.8025230952617464,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0004958021257574252,
      "loss": 0.5386,
      "step": 76560
    },
    {
      "epoch": 3.8030197675573656,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0004957623919737758,
      "loss": 0.514,
      "step": 76570
    },
    {
      "epoch": 3.8035164398529853,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0004957226581901262,
      "loss": 0.535,
      "step": 76580
    },
    {
      "epoch": 3.8040131121486045,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0004956829244064766,
      "loss": 0.5503,
      "step": 76590
    },
    {
      "epoch": 3.8045097844442237,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.000495643190622827,
      "loss": 0.5156,
      "step": 76600
    },
    {
      "epoch": 3.805006456739843,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0004956034568391775,
      "loss": 0.5681,
      "step": 76610
    },
    {
      "epoch": 3.805503129035462,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0004955637230555281,
      "loss": 0.5347,
      "step": 76620
    },
    {
      "epoch": 3.805999801331082,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0004955239892718784,
      "loss": 0.5676,
      "step": 76630
    },
    {
      "epoch": 3.806496473626701,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0004954842554882289,
      "loss": 0.5308,
      "step": 76640
    },
    {
      "epoch": 3.8069931459223203,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0004954445217045793,
      "loss": 0.5314,
      "step": 76650
    },
    {
      "epoch": 3.80748981821794,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0004954047879209297,
      "loss": 0.5216,
      "step": 76660
    },
    {
      "epoch": 3.807986490513559,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004953650541372803,
      "loss": 0.5433,
      "step": 76670
    },
    {
      "epoch": 3.8084831628091784,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004953253203536307,
      "loss": 0.5521,
      "step": 76680
    },
    {
      "epoch": 3.8089798351047977,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0004952855865699811,
      "loss": 0.5234,
      "step": 76690
    },
    {
      "epoch": 3.8094765074004173,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0004952458527863316,
      "loss": 0.4972,
      "step": 76700
    },
    {
      "epoch": 3.8099731796960365,
      "grad_norm": 0.16796875,
      "learning_rate": 0.000495206119002682,
      "loss": 0.5387,
      "step": 76710
    },
    {
      "epoch": 3.8104698519916558,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0004951663852190325,
      "loss": 0.5169,
      "step": 76720
    },
    {
      "epoch": 3.8109665242872754,
      "grad_norm": 0.15625,
      "learning_rate": 0.000495126651435383,
      "loss": 0.5121,
      "step": 76730
    },
    {
      "epoch": 3.8114631965828947,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0004950869176517334,
      "loss": 0.5538,
      "step": 76740
    },
    {
      "epoch": 3.811959868878514,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0004950471838680838,
      "loss": 0.529,
      "step": 76750
    },
    {
      "epoch": 3.812456541174133,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0004950074500844343,
      "loss": 0.5366,
      "step": 76760
    },
    {
      "epoch": 3.812953213469753,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.0004949677163007848,
      "loss": 0.5343,
      "step": 76770
    },
    {
      "epoch": 3.813449885765372,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0004949279825171353,
      "loss": 0.5588,
      "step": 76780
    },
    {
      "epoch": 3.8139465580609913,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0004948882487334856,
      "loss": 0.5383,
      "step": 76790
    },
    {
      "epoch": 3.814443230356611,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0004948485149498361,
      "loss": 0.5263,
      "step": 76800
    },
    {
      "epoch": 3.81493990265223,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0004948087811661867,
      "loss": 0.5515,
      "step": 76810
    },
    {
      "epoch": 3.8154365749478494,
      "grad_norm": 0.142578125,
      "learning_rate": 0.000494769047382537,
      "loss": 0.515,
      "step": 76820
    },
    {
      "epoch": 3.8159332472434686,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0004947293135988875,
      "loss": 0.5327,
      "step": 76830
    },
    {
      "epoch": 3.816429919539088,
      "grad_norm": 0.15234375,
      "learning_rate": 0.000494689579815238,
      "loss": 0.5308,
      "step": 76840
    },
    {
      "epoch": 3.8169265918347075,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0004946498460315883,
      "loss": 0.5392,
      "step": 76850
    },
    {
      "epoch": 3.8174232641303267,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0004946101122479388,
      "loss": 0.5223,
      "step": 76860
    },
    {
      "epoch": 3.8179199364259464,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0004945703784642893,
      "loss": 0.5221,
      "step": 76870
    },
    {
      "epoch": 3.8184166087215656,
      "grad_norm": 0.09375,
      "learning_rate": 0.0004945306446806397,
      "loss": 0.5134,
      "step": 76880
    },
    {
      "epoch": 3.818913281017185,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004944909108969902,
      "loss": 0.5067,
      "step": 76890
    },
    {
      "epoch": 3.819409953312804,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0004944511771133406,
      "loss": 0.5321,
      "step": 76900
    },
    {
      "epoch": 3.8199066256084233,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0004944114433296911,
      "loss": 0.5426,
      "step": 76910
    },
    {
      "epoch": 3.820403297904043,
      "grad_norm": 0.09619140625,
      "learning_rate": 0.0004943717095460416,
      "loss": 0.515,
      "step": 76920
    },
    {
      "epoch": 3.820899970199662,
      "grad_norm": 0.11328125,
      "learning_rate": 0.000494331975762392,
      "loss": 0.5162,
      "step": 76930
    },
    {
      "epoch": 3.821396642495282,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0004942922419787425,
      "loss": 0.5413,
      "step": 76940
    },
    {
      "epoch": 3.821893314790901,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0004942525081950929,
      "loss": 0.5547,
      "step": 76950
    },
    {
      "epoch": 3.8223899870865203,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004942127744114433,
      "loss": 0.5419,
      "step": 76960
    },
    {
      "epoch": 3.8228866593821396,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0004941730406277939,
      "loss": 0.5224,
      "step": 76970
    },
    {
      "epoch": 3.823383331677759,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0004941333068441442,
      "loss": 0.5259,
      "step": 76980
    },
    {
      "epoch": 3.8238800039733785,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0004940935730604947,
      "loss": 0.5216,
      "step": 76990
    },
    {
      "epoch": 3.8243766762689977,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0004940538392768452,
      "loss": 0.5639,
      "step": 77000
    },
    {
      "epoch": 3.824873348564617,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0004940141054931955,
      "loss": 0.5427,
      "step": 77010
    },
    {
      "epoch": 3.8253700208602366,
      "grad_norm": 0.12109375,
      "learning_rate": 0.0004939743717095461,
      "loss": 0.5237,
      "step": 77020
    },
    {
      "epoch": 3.825866693155856,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0004939346379258966,
      "loss": 0.5508,
      "step": 77030
    },
    {
      "epoch": 3.826363365451475,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004938949041422469,
      "loss": 0.5257,
      "step": 77040
    },
    {
      "epoch": 3.8268600377470943,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0004938551703585974,
      "loss": 0.5381,
      "step": 77050
    },
    {
      "epoch": 3.827356710042714,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004938154365749478,
      "loss": 0.5421,
      "step": 77060
    },
    {
      "epoch": 3.827853382338333,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0004937757027912984,
      "loss": 0.525,
      "step": 77070
    },
    {
      "epoch": 3.8283500546339524,
      "grad_norm": 0.109375,
      "learning_rate": 0.0004937359690076488,
      "loss": 0.5108,
      "step": 77080
    },
    {
      "epoch": 3.828846726929572,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0004936962352239992,
      "loss": 0.5251,
      "step": 77090
    },
    {
      "epoch": 3.8293433992251913,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.0004936565014403497,
      "loss": 0.5566,
      "step": 77100
    },
    {
      "epoch": 3.8298400715208105,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0004936167676567001,
      "loss": 0.5185,
      "step": 77110
    },
    {
      "epoch": 3.8303367438164297,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0004935770338730506,
      "loss": 0.5233,
      "step": 77120
    },
    {
      "epoch": 3.8308334161120494,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0004935373000894011,
      "loss": 0.5356,
      "step": 77130
    },
    {
      "epoch": 3.8313300884076686,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0004934975663057515,
      "loss": 0.5334,
      "step": 77140
    },
    {
      "epoch": 3.831826760703288,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0004934578325221019,
      "loss": 0.5327,
      "step": 77150
    },
    {
      "epoch": 3.8323234329989075,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0004934180987384524,
      "loss": 0.5342,
      "step": 77160
    },
    {
      "epoch": 3.8328201052945268,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0004933783649548029,
      "loss": 0.5361,
      "step": 77170
    },
    {
      "epoch": 3.833316777590146,
      "grad_norm": 0.103515625,
      "learning_rate": 0.0004933386311711533,
      "loss": 0.5545,
      "step": 77180
    },
    {
      "epoch": 3.8338134498857652,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0004932988973875038,
      "loss": 0.5256,
      "step": 77190
    },
    {
      "epoch": 3.8343101221813845,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0004932591636038541,
      "loss": 0.5355,
      "step": 77200
    },
    {
      "epoch": 3.834806794477004,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0004932194298202046,
      "loss": 0.5366,
      "step": 77210
    },
    {
      "epoch": 3.8353034667726233,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0004931796960365552,
      "loss": 0.5469,
      "step": 77220
    },
    {
      "epoch": 3.835800139068243,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0004931399622529056,
      "loss": 0.5382,
      "step": 77230
    },
    {
      "epoch": 3.8362968113638622,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.000493100228469256,
      "loss": 0.5042,
      "step": 77240
    },
    {
      "epoch": 3.8367934836594815,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0004930604946856064,
      "loss": 0.5104,
      "step": 77250
    },
    {
      "epoch": 3.8372901559551007,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0004930207609019569,
      "loss": 0.5509,
      "step": 77260
    },
    {
      "epoch": 3.83778682825072,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0004929810271183074,
      "loss": 0.5261,
      "step": 77270
    },
    {
      "epoch": 3.8382835005463396,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0004929412933346578,
      "loss": 0.5002,
      "step": 77280
    },
    {
      "epoch": 3.838780172841959,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0004929015595510083,
      "loss": 0.5322,
      "step": 77290
    },
    {
      "epoch": 3.8392768451375785,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0004928618257673587,
      "loss": 0.5219,
      "step": 77300
    },
    {
      "epoch": 3.8397735174331977,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0004928220919837091,
      "loss": 0.5465,
      "step": 77310
    },
    {
      "epoch": 3.840270189728817,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0004927823582000597,
      "loss": 0.5752,
      "step": 77320
    },
    {
      "epoch": 3.840766862024436,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004927426244164101,
      "loss": 0.5246,
      "step": 77330
    },
    {
      "epoch": 3.8412635343200554,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0004927028906327605,
      "loss": 0.5423,
      "step": 77340
    },
    {
      "epoch": 3.841760206615675,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.000492663156849111,
      "loss": 0.5225,
      "step": 77350
    },
    {
      "epoch": 3.8422568789112943,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0004926234230654614,
      "loss": 0.5334,
      "step": 77360
    },
    {
      "epoch": 3.8427535512069135,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.0004925836892818119,
      "loss": 0.505,
      "step": 77370
    },
    {
      "epoch": 3.843250223502533,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0004925439554981624,
      "loss": 0.5224,
      "step": 77380
    },
    {
      "epoch": 3.8437468957981524,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0004925042217145128,
      "loss": 0.5149,
      "step": 77390
    },
    {
      "epoch": 3.8442435680937717,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0004924644879308632,
      "loss": 0.5327,
      "step": 77400
    },
    {
      "epoch": 3.844740240389391,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0004924247541472137,
      "loss": 0.5212,
      "step": 77410
    },
    {
      "epoch": 3.8452369126850106,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0004923850203635642,
      "loss": 0.5236,
      "step": 77420
    },
    {
      "epoch": 3.84573358498063,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0004923452865799146,
      "loss": 0.5518,
      "step": 77430
    },
    {
      "epoch": 3.846230257276249,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0004923055527962651,
      "loss": 0.5539,
      "step": 77440
    },
    {
      "epoch": 3.8467269295718687,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0004922658190126155,
      "loss": 0.5373,
      "step": 77450
    },
    {
      "epoch": 3.847223601867488,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0004922260852289659,
      "loss": 0.5529,
      "step": 77460
    },
    {
      "epoch": 3.847720274163107,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0004921863514453164,
      "loss": 0.5682,
      "step": 77470
    },
    {
      "epoch": 3.8482169464587264,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0004921466176616669,
      "loss": 0.5279,
      "step": 77480
    },
    {
      "epoch": 3.848713618754346,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0004921068838780173,
      "loss": 0.5535,
      "step": 77490
    },
    {
      "epoch": 3.8492102910499653,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0004920671500943677,
      "loss": 0.5249,
      "step": 77500
    },
    {
      "epoch": 3.8497069633455845,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0004920274163107182,
      "loss": 0.5058,
      "step": 77510
    },
    {
      "epoch": 3.850203635641204,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004919876825270687,
      "loss": 0.5522,
      "step": 77520
    },
    {
      "epoch": 3.8507003079368234,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0004919479487434191,
      "loss": 0.5331,
      "step": 77530
    },
    {
      "epoch": 3.8511969802324426,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0004919082149597696,
      "loss": 0.5452,
      "step": 77540
    },
    {
      "epoch": 3.851693652528062,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.00049186848117612,
      "loss": 0.5229,
      "step": 77550
    },
    {
      "epoch": 3.852190324823681,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0004918287473924704,
      "loss": 0.5111,
      "step": 77560
    },
    {
      "epoch": 3.8526869971193007,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.000491789013608821,
      "loss": 0.5245,
      "step": 77570
    },
    {
      "epoch": 3.85318366941492,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0004917492798251714,
      "loss": 0.5325,
      "step": 77580
    },
    {
      "epoch": 3.8536803417105396,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004917095460415218,
      "loss": 0.5324,
      "step": 77590
    },
    {
      "epoch": 3.854177014006159,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0004916698122578723,
      "loss": 0.523,
      "step": 77600
    },
    {
      "epoch": 3.854673686301778,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0004916300784742227,
      "loss": 0.5764,
      "step": 77610
    },
    {
      "epoch": 3.8551703585973973,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0004915903446905732,
      "loss": 0.5273,
      "step": 77620
    },
    {
      "epoch": 3.8556670308930165,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0004915506109069237,
      "loss": 0.5281,
      "step": 77630
    },
    {
      "epoch": 3.856163703188636,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0004915108771232741,
      "loss": 0.5493,
      "step": 77640
    },
    {
      "epoch": 3.8566603754842554,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0004914711433396245,
      "loss": 0.53,
      "step": 77650
    },
    {
      "epoch": 3.857157047779875,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.0004914314095559749,
      "loss": 0.5514,
      "step": 77660
    },
    {
      "epoch": 3.8576537200754943,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0004913916757723255,
      "loss": 0.5638,
      "step": 77670
    },
    {
      "epoch": 3.8581503923711136,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.000491351941988676,
      "loss": 0.5153,
      "step": 77680
    },
    {
      "epoch": 3.858647064666733,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0004913122082050263,
      "loss": 0.5267,
      "step": 77690
    },
    {
      "epoch": 3.859143736962352,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0004912724744213768,
      "loss": 0.563,
      "step": 77700
    },
    {
      "epoch": 3.8596404092579717,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0004912327406377273,
      "loss": 0.5209,
      "step": 77710
    },
    {
      "epoch": 3.860137081553591,
      "grad_norm": 0.125,
      "learning_rate": 0.0004911930068540776,
      "loss": 0.5381,
      "step": 77720
    },
    {
      "epoch": 3.86063375384921,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0004911532730704282,
      "loss": 0.5184,
      "step": 77730
    },
    {
      "epoch": 3.86113042614483,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0004911135392867786,
      "loss": 0.5145,
      "step": 77740
    },
    {
      "epoch": 3.861627098440449,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.000491073805503129,
      "loss": 0.5214,
      "step": 77750
    },
    {
      "epoch": 3.8621237707360683,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0004910340717194795,
      "loss": 0.5344,
      "step": 77760
    },
    {
      "epoch": 3.8626204430316875,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.00049099433793583,
      "loss": 0.5234,
      "step": 77770
    },
    {
      "epoch": 3.863117115327307,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004909546041521804,
      "loss": 0.5339,
      "step": 77780
    },
    {
      "epoch": 3.8636137876229264,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0004909148703685309,
      "loss": 0.5405,
      "step": 77790
    },
    {
      "epoch": 3.8641104599185456,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.0004908751365848813,
      "loss": 0.5536,
      "step": 77800
    },
    {
      "epoch": 3.8646071322141653,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0004908354028012318,
      "loss": 0.5374,
      "step": 77810
    },
    {
      "epoch": 3.8651038045097845,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0004907956690175823,
      "loss": 0.5438,
      "step": 77820
    },
    {
      "epoch": 3.8656004768054038,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0004907559352339327,
      "loss": 0.5263,
      "step": 77830
    },
    {
      "epoch": 3.866097149101023,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0004907162014502832,
      "loss": 0.5228,
      "step": 77840
    },
    {
      "epoch": 3.8665938213966426,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004906764676666335,
      "loss": 0.5644,
      "step": 77850
    },
    {
      "epoch": 3.867090493692262,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.000490636733882984,
      "loss": 0.5252,
      "step": 77860
    },
    {
      "epoch": 3.867587165987881,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0004905970000993346,
      "loss": 0.5538,
      "step": 77870
    },
    {
      "epoch": 3.8680838382835008,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0004905572663156849,
      "loss": 0.5115,
      "step": 77880
    },
    {
      "epoch": 3.86858051057912,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0004905175325320354,
      "loss": 0.5239,
      "step": 77890
    },
    {
      "epoch": 3.8690771828747392,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0004904777987483859,
      "loss": 0.4906,
      "step": 77900
    },
    {
      "epoch": 3.8695738551703585,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.0004904380649647362,
      "loss": 0.551,
      "step": 77910
    },
    {
      "epoch": 3.8700705274659777,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0004903983311810867,
      "loss": 0.5334,
      "step": 77920
    },
    {
      "epoch": 3.8705671997615974,
      "grad_norm": 0.0947265625,
      "learning_rate": 0.0004903585973974372,
      "loss": 0.5479,
      "step": 77930
    },
    {
      "epoch": 3.8710638720572166,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0004903188636137876,
      "loss": 0.5058,
      "step": 77940
    },
    {
      "epoch": 3.8715605443528363,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0004902791298301381,
      "loss": 0.54,
      "step": 77950
    },
    {
      "epoch": 3.8720572166484555,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0004902393960464885,
      "loss": 0.533,
      "step": 77960
    },
    {
      "epoch": 3.8725538889440747,
      "grad_norm": 0.109375,
      "learning_rate": 0.000490199662262839,
      "loss": 0.5098,
      "step": 77970
    },
    {
      "epoch": 3.873050561239694,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0004901599284791895,
      "loss": 0.5435,
      "step": 77980
    },
    {
      "epoch": 3.873547233535313,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0004901201946955399,
      "loss": 0.5652,
      "step": 77990
    },
    {
      "epoch": 3.874043905830933,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0004900804609118904,
      "loss": 0.5213,
      "step": 78000
    },
    {
      "epoch": 3.874540578126552,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0004900407271282408,
      "loss": 0.5487,
      "step": 78010
    },
    {
      "epoch": 3.8750372504221713,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0004900009933445912,
      "loss": 0.5225,
      "step": 78020
    },
    {
      "epoch": 3.875533922717791,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0004899612595609418,
      "loss": 0.5417,
      "step": 78030
    },
    {
      "epoch": 3.87603059501341,
      "grad_norm": 0.1015625,
      "learning_rate": 0.0004899215257772922,
      "loss": 0.5715,
      "step": 78040
    },
    {
      "epoch": 3.8765272673090294,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0004898817919936426,
      "loss": 0.5074,
      "step": 78050
    },
    {
      "epoch": 3.8770239396046486,
      "grad_norm": 0.126953125,
      "learning_rate": 0.0004898420582099931,
      "loss": 0.5138,
      "step": 78060
    },
    {
      "epoch": 3.8775206119002683,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0004898023244263434,
      "loss": 0.513,
      "step": 78070
    },
    {
      "epoch": 3.8780172841958875,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.000489762590642694,
      "loss": 0.5218,
      "step": 78080
    },
    {
      "epoch": 3.8785139564915068,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0004897228568590445,
      "loss": 0.5516,
      "step": 78090
    },
    {
      "epoch": 3.8790106287871264,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004896831230753948,
      "loss": 0.5456,
      "step": 78100
    },
    {
      "epoch": 3.8795073010827457,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0004896433892917453,
      "loss": 0.5356,
      "step": 78110
    },
    {
      "epoch": 3.880003973378365,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0004896036555080957,
      "loss": 0.5203,
      "step": 78120
    },
    {
      "epoch": 3.880500645673984,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0004895639217244463,
      "loss": 0.5382,
      "step": 78130
    },
    {
      "epoch": 3.880997317969604,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0004895241879407967,
      "loss": 0.5274,
      "step": 78140
    },
    {
      "epoch": 3.881493990265223,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.0004894844541571471,
      "loss": 0.5278,
      "step": 78150
    },
    {
      "epoch": 3.8819906625608422,
      "grad_norm": 0.130859375,
      "learning_rate": 0.0004894447203734976,
      "loss": 0.5564,
      "step": 78160
    },
    {
      "epoch": 3.882487334856462,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.000489404986589848,
      "loss": 0.5444,
      "step": 78170
    },
    {
      "epoch": 3.882984007152081,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0004893652528061985,
      "loss": 0.5267,
      "step": 78180
    },
    {
      "epoch": 3.8834806794477004,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.000489325519022549,
      "loss": 0.5116,
      "step": 78190
    },
    {
      "epoch": 3.8839773517433196,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0004892857852388994,
      "loss": 0.5024,
      "step": 78200
    },
    {
      "epoch": 3.8844740240389393,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.0004892460514552498,
      "loss": 0.5304,
      "step": 78210
    },
    {
      "epoch": 3.8849706963345585,
      "grad_norm": 0.12890625,
      "learning_rate": 0.0004892063176716003,
      "loss": 0.5474,
      "step": 78220
    },
    {
      "epoch": 3.8854673686301777,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0004891665838879508,
      "loss": 0.5243,
      "step": 78230
    },
    {
      "epoch": 3.8859640409257974,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0004891268501043012,
      "loss": 0.5531,
      "step": 78240
    },
    {
      "epoch": 3.8864607132214166,
      "grad_norm": 0.109375,
      "learning_rate": 0.0004890871163206517,
      "loss": 0.5401,
      "step": 78250
    },
    {
      "epoch": 3.886957385517036,
      "grad_norm": 0.14453125,
      "learning_rate": 0.0004890473825370021,
      "loss": 0.5397,
      "step": 78260
    },
    {
      "epoch": 3.887454057812655,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0004890076487533525,
      "loss": 0.5461,
      "step": 78270
    },
    {
      "epoch": 3.8879507301082743,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0004889679149697031,
      "loss": 0.5115,
      "step": 78280
    },
    {
      "epoch": 3.888447402403894,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0004889281811860535,
      "loss": 0.519,
      "step": 78290
    },
    {
      "epoch": 3.888944074699513,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.0004888884474024039,
      "loss": 0.5557,
      "step": 78300
    },
    {
      "epoch": 3.889440746995133,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0004888487136187543,
      "loss": 0.5311,
      "step": 78310
    },
    {
      "epoch": 3.889937419290752,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0004888089798351048,
      "loss": 0.5394,
      "step": 78320
    },
    {
      "epoch": 3.8904340915863713,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0004887692460514553,
      "loss": 0.5154,
      "step": 78330
    },
    {
      "epoch": 3.8909307638819906,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.0004887295122678057,
      "loss": 0.5444,
      "step": 78340
    },
    {
      "epoch": 3.8914274361776098,
      "grad_norm": 0.1328125,
      "learning_rate": 0.0004886897784841562,
      "loss": 0.5237,
      "step": 78350
    },
    {
      "epoch": 3.8919241084732294,
      "grad_norm": 0.111328125,
      "learning_rate": 0.0004886500447005066,
      "loss": 0.5175,
      "step": 78360
    },
    {
      "epoch": 3.8924207807688487,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.000488610310916857,
      "loss": 0.5257,
      "step": 78370
    },
    {
      "epoch": 3.892917453064468,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0004885705771332076,
      "loss": 0.5148,
      "step": 78380
    },
    {
      "epoch": 3.8934141253600876,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.000488530843349558,
      "loss": 0.5445,
      "step": 78390
    },
    {
      "epoch": 3.893910797655707,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0004884911095659084,
      "loss": 0.5255,
      "step": 78400
    },
    {
      "epoch": 3.894407469951326,
      "grad_norm": 0.123046875,
      "learning_rate": 0.0004884513757822589,
      "loss": 0.538,
      "step": 78410
    },
    {
      "epoch": 3.8949041422469453,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.0004884116419986093,
      "loss": 0.5602,
      "step": 78420
    },
    {
      "epoch": 3.895400814542565,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0004883719082149598,
      "loss": 0.5426,
      "step": 78430
    },
    {
      "epoch": 3.895897486838184,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0004883321744313103,
      "loss": 0.5264,
      "step": 78440
    },
    {
      "epoch": 3.8963941591338034,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0004882924406476607,
      "loss": 0.5425,
      "step": 78450
    },
    {
      "epoch": 3.896890831429423,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004882527068640111,
      "loss": 0.5515,
      "step": 78460
    },
    {
      "epoch": 3.8973875037250423,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0004882129730803616,
      "loss": 0.5495,
      "step": 78470
    },
    {
      "epoch": 3.8978841760206615,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.00048817323929671206,
      "loss": 0.5271,
      "step": 78480
    },
    {
      "epoch": 3.8983808483162807,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004881335055130625,
      "loss": 0.5404,
      "step": 78490
    },
    {
      "epoch": 3.8988775206119004,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.00048809377172941295,
      "loss": 0.5227,
      "step": 78500
    },
    {
      "epoch": 3.8993741929075196,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0004880540379457634,
      "loss": 0.5285,
      "step": 78510
    },
    {
      "epoch": 3.899870865203139,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.00048801430416211384,
      "loss": 0.5331,
      "step": 78520
    },
    {
      "epoch": 3.9003675374987585,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0004879745703784643,
      "loss": 0.5292,
      "step": 78530
    },
    {
      "epoch": 3.9008642097943778,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0004879348365948148,
      "loss": 0.4952,
      "step": 78540
    },
    {
      "epoch": 3.901360882089997,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.0004878951028111652,
      "loss": 0.5172,
      "step": 78550
    },
    {
      "epoch": 3.901857554385616,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.00048785536902751567,
      "loss": 0.5235,
      "step": 78560
    },
    {
      "epoch": 3.902354226681236,
      "grad_norm": 0.11328125,
      "learning_rate": 0.00048781563524386614,
      "loss": 0.5048,
      "step": 78570
    },
    {
      "epoch": 3.902850898976855,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0004877759014602166,
      "loss": 0.5437,
      "step": 78580
    },
    {
      "epoch": 3.9033475712724743,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.00048773616767656703,
      "loss": 0.5178,
      "step": 78590
    },
    {
      "epoch": 3.903844243568094,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0004876964338929175,
      "loss": 0.5071,
      "step": 78600
    },
    {
      "epoch": 3.9043409158637132,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.00048765670010926797,
      "loss": 0.5203,
      "step": 78610
    },
    {
      "epoch": 3.9048375881593325,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.00048761696632561833,
      "loss": 0.5194,
      "step": 78620
    },
    {
      "epoch": 3.9053342604549517,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0004875772325419688,
      "loss": 0.515,
      "step": 78630
    },
    {
      "epoch": 3.905830932750571,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.00048753749875831933,
      "loss": 0.533,
      "step": 78640
    },
    {
      "epoch": 3.9063276050461906,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0004874977649746697,
      "loss": 0.5588,
      "step": 78650
    },
    {
      "epoch": 3.90682427734181,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.00048745803119102017,
      "loss": 0.5296,
      "step": 78660
    },
    {
      "epoch": 3.9073209496374295,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.00048741829740737064,
      "loss": 0.5109,
      "step": 78670
    },
    {
      "epoch": 3.9078176219330487,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.00048737856362372105,
      "loss": 0.5399,
      "step": 78680
    },
    {
      "epoch": 3.908314294228668,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0004873388298400715,
      "loss": 0.509,
      "step": 78690
    },
    {
      "epoch": 3.908810966524287,
      "grad_norm": 0.115234375,
      "learning_rate": 0.000487299096056422,
      "loss": 0.52,
      "step": 78700
    },
    {
      "epoch": 3.9093076388199064,
      "grad_norm": 0.11328125,
      "learning_rate": 0.00048725936227277247,
      "loss": 0.5361,
      "step": 78710
    },
    {
      "epoch": 3.909804311115526,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0004872196284891229,
      "loss": 0.5012,
      "step": 78720
    },
    {
      "epoch": 3.9103009834111453,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.00048717989470547336,
      "loss": 0.5238,
      "step": 78730
    },
    {
      "epoch": 3.9107976557067645,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.00048714016092182383,
      "loss": 0.5273,
      "step": 78740
    },
    {
      "epoch": 3.911294328002384,
      "grad_norm": 0.10546875,
      "learning_rate": 0.00048710042713817424,
      "loss": 0.532,
      "step": 78750
    },
    {
      "epoch": 3.9117910002980034,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0004870606933545247,
      "loss": 0.5236,
      "step": 78760
    },
    {
      "epoch": 3.9122876725936226,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0004870209595708752,
      "loss": 0.5262,
      "step": 78770
    },
    {
      "epoch": 3.912784344889242,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0004869812257872256,
      "loss": 0.5073,
      "step": 78780
    },
    {
      "epoch": 3.9132810171848615,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0004869414920035761,
      "loss": 0.5161,
      "step": 78790
    },
    {
      "epoch": 3.9137776894804808,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.00048690175821992655,
      "loss": 0.5226,
      "step": 78800
    },
    {
      "epoch": 3.9142743617761,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0004868620244362769,
      "loss": 0.5043,
      "step": 78810
    },
    {
      "epoch": 3.9147710340717197,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.00048682229065262744,
      "loss": 0.5119,
      "step": 78820
    },
    {
      "epoch": 3.915267706367339,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004867825568689779,
      "loss": 0.5354,
      "step": 78830
    },
    {
      "epoch": 3.915764378662958,
      "grad_norm": 0.09765625,
      "learning_rate": 0.00048674282308532827,
      "loss": 0.5004,
      "step": 78840
    },
    {
      "epoch": 3.9162610509585773,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.00048670308930167874,
      "loss": 0.5131,
      "step": 78850
    },
    {
      "epoch": 3.916757723254197,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.00048666335551802927,
      "loss": 0.5342,
      "step": 78860
    },
    {
      "epoch": 3.9172543955498162,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.00048662362173437974,
      "loss": 0.5517,
      "step": 78870
    },
    {
      "epoch": 3.9177510678454355,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.0004865838879507301,
      "loss": 0.5119,
      "step": 78880
    },
    {
      "epoch": 3.918247740141055,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.00048654415416708057,
      "loss": 0.5285,
      "step": 78890
    },
    {
      "epoch": 3.9187444124366744,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.00048650442038343104,
      "loss": 0.5466,
      "step": 78900
    },
    {
      "epoch": 3.9192410847322936,
      "grad_norm": 0.095703125,
      "learning_rate": 0.00048646468659978146,
      "loss": 0.5246,
      "step": 78910
    },
    {
      "epoch": 3.919737757027913,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.00048642495281613193,
      "loss": 0.5565,
      "step": 78920
    },
    {
      "epoch": 3.9202344293235325,
      "grad_norm": 0.10888671875,
      "learning_rate": 0.0004863852190324824,
      "loss": 0.5123,
      "step": 78930
    },
    {
      "epoch": 3.9207311016191517,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0004863454852488328,
      "loss": 0.522,
      "step": 78940
    },
    {
      "epoch": 3.921227773914771,
      "grad_norm": 0.10107421875,
      "learning_rate": 0.0004863057514651833,
      "loss": 0.5093,
      "step": 78950
    },
    {
      "epoch": 3.9217244462103906,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.00048626601768153376,
      "loss": 0.511,
      "step": 78960
    },
    {
      "epoch": 3.92222111850601,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.0004862262838978842,
      "loss": 0.5285,
      "step": 78970
    },
    {
      "epoch": 3.922717790801629,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.00048618655011423465,
      "loss": 0.5343,
      "step": 78980
    },
    {
      "epoch": 3.9232144630972483,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0004861468163305851,
      "loss": 0.5646,
      "step": 78990
    },
    {
      "epoch": 3.9237111353928675,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0004861070825469356,
      "loss": 0.5277,
      "step": 79000
    },
    {
      "epoch": 3.924207807688487,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.000486067348763286,
      "loss": 0.5393,
      "step": 79010
    },
    {
      "epoch": 3.9247044799841064,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0004860276149796365,
      "loss": 0.5405,
      "step": 79020
    },
    {
      "epoch": 3.925201152279726,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.00048598788119598696,
      "loss": 0.5444,
      "step": 79030
    },
    {
      "epoch": 3.9256978245753453,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0004859481474123373,
      "loss": 0.5462,
      "step": 79040
    },
    {
      "epoch": 3.9261944968709646,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.00048590841362868784,
      "loss": 0.5064,
      "step": 79050
    },
    {
      "epoch": 3.926691169166584,
      "grad_norm": 0.09375,
      "learning_rate": 0.0004858686798450383,
      "loss": 0.519,
      "step": 79060
    },
    {
      "epoch": 3.927187841462203,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0004858289460613887,
      "loss": 0.5443,
      "step": 79070
    },
    {
      "epoch": 3.9276845137578227,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.00048578921227773915,
      "loss": 0.511,
      "step": 79080
    },
    {
      "epoch": 3.928181186053442,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0004857494784940897,
      "loss": 0.5439,
      "step": 79090
    },
    {
      "epoch": 3.928677858349061,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.00048570974471044004,
      "loss": 0.5368,
      "step": 79100
    },
    {
      "epoch": 3.929174530644681,
      "grad_norm": 0.140625,
      "learning_rate": 0.0004856700109267905,
      "loss": 0.5425,
      "step": 79110
    },
    {
      "epoch": 3.9296712029403,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.000485630277143141,
      "loss": 0.5535,
      "step": 79120
    },
    {
      "epoch": 3.9301678752359193,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0004855905433594914,
      "loss": 0.5268,
      "step": 79130
    },
    {
      "epoch": 3.9306645475315385,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.00048555080957584187,
      "loss": 0.523,
      "step": 79140
    },
    {
      "epoch": 3.931161219827158,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.00048551107579219234,
      "loss": 0.537,
      "step": 79150
    },
    {
      "epoch": 3.9316578921227774,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0004854713420085428,
      "loss": 0.5496,
      "step": 79160
    },
    {
      "epoch": 3.9321545644183966,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.00048543160822489323,
      "loss": 0.5504,
      "step": 79170
    },
    {
      "epoch": 3.9326512367140163,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004853918744412437,
      "loss": 0.5735,
      "step": 79180
    },
    {
      "epoch": 3.9331479090096355,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.00048535214065759417,
      "loss": 0.5313,
      "step": 79190
    },
    {
      "epoch": 3.9336445813052547,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.0004853124068739446,
      "loss": 0.5333,
      "step": 79200
    },
    {
      "epoch": 3.934141253600874,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.00048527267309029506,
      "loss": 0.5218,
      "step": 79210
    },
    {
      "epoch": 3.9346379258964936,
      "grad_norm": 0.1328125,
      "learning_rate": 0.00048523293930664553,
      "loss": 0.5266,
      "step": 79220
    },
    {
      "epoch": 3.935134598192113,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0004851932055229959,
      "loss": 0.5356,
      "step": 79230
    },
    {
      "epoch": 3.935631270487732,
      "grad_norm": 0.125,
      "learning_rate": 0.0004851534717393464,
      "loss": 0.5371,
      "step": 79240
    },
    {
      "epoch": 3.9361279427833518,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.0004851137379556969,
      "loss": 0.509,
      "step": 79250
    },
    {
      "epoch": 3.936624615078971,
      "grad_norm": 0.109375,
      "learning_rate": 0.00048507400417204725,
      "loss": 0.5251,
      "step": 79260
    },
    {
      "epoch": 3.93712128737459,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0004850342703883977,
      "loss": 0.5085,
      "step": 79270
    },
    {
      "epoch": 3.9376179596702094,
      "grad_norm": 0.125,
      "learning_rate": 0.00048499453660474825,
      "loss": 0.5571,
      "step": 79280
    },
    {
      "epoch": 3.9381146319658287,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0004849548028210986,
      "loss": 0.5364,
      "step": 79290
    },
    {
      "epoch": 3.9386113042614483,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.0004849150690374491,
      "loss": 0.5451,
      "step": 79300
    },
    {
      "epoch": 3.9391079765570676,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.00048487533525379956,
      "loss": 0.5003,
      "step": 79310
    },
    {
      "epoch": 3.9396046488526872,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0004848356014701501,
      "loss": 0.5263,
      "step": 79320
    },
    {
      "epoch": 3.9401013211483065,
      "grad_norm": 0.10546875,
      "learning_rate": 0.00048479586768650045,
      "loss": 0.523,
      "step": 79330
    },
    {
      "epoch": 3.9405979934439257,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0004847561339028509,
      "loss": 0.5346,
      "step": 79340
    },
    {
      "epoch": 3.941094665739545,
      "grad_norm": 0.11474609375,
      "learning_rate": 0.0004847164001192014,
      "loss": 0.5233,
      "step": 79350
    },
    {
      "epoch": 3.941591338035164,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0004846766663355518,
      "loss": 0.5381,
      "step": 79360
    },
    {
      "epoch": 3.942088010330784,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0004846369325519023,
      "loss": 0.5275,
      "step": 79370
    },
    {
      "epoch": 3.942584682626403,
      "grad_norm": 0.109375,
      "learning_rate": 0.00048459719876825275,
      "loss": 0.5336,
      "step": 79380
    },
    {
      "epoch": 3.9430813549220227,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.00048455746498460316,
      "loss": 0.5401,
      "step": 79390
    },
    {
      "epoch": 3.943578027217642,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.00048451773120095364,
      "loss": 0.524,
      "step": 79400
    },
    {
      "epoch": 3.944074699513261,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0004844779974173041,
      "loss": 0.514,
      "step": 79410
    },
    {
      "epoch": 3.9445713718088804,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0004844382636336545,
      "loss": 0.5181,
      "step": 79420
    },
    {
      "epoch": 3.9450680441044996,
      "grad_norm": 0.12353515625,
      "learning_rate": 0.000484398529850005,
      "loss": 0.5247,
      "step": 79430
    },
    {
      "epoch": 3.9455647164001193,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.00048435879606635547,
      "loss": 0.5204,
      "step": 79440
    },
    {
      "epoch": 3.9460613886957385,
      "grad_norm": 0.10400390625,
      "learning_rate": 0.00048431906228270594,
      "loss": 0.4897,
      "step": 79450
    },
    {
      "epoch": 3.9465580609913578,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004842793284990563,
      "loss": 0.5227,
      "step": 79460
    },
    {
      "epoch": 3.9470547332869774,
      "grad_norm": 0.130859375,
      "learning_rate": 0.00048423959471540683,
      "loss": 0.5644,
      "step": 79470
    },
    {
      "epoch": 3.9475514055825967,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0004841998609317573,
      "loss": 0.5391,
      "step": 79480
    },
    {
      "epoch": 3.948048077878216,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.00048416012714810766,
      "loss": 0.5092,
      "step": 79490
    },
    {
      "epoch": 3.948544750173835,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.00048412039336445813,
      "loss": 0.5233,
      "step": 79500
    },
    {
      "epoch": 3.9490414224694548,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.00048408065958080866,
      "loss": 0.5487,
      "step": 79510
    },
    {
      "epoch": 3.949538094765074,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.000484040925797159,
      "loss": 0.5287,
      "step": 79520
    },
    {
      "epoch": 3.9500347670606932,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0004840011920135095,
      "loss": 0.5458,
      "step": 79530
    },
    {
      "epoch": 3.950531439356313,
      "grad_norm": 0.138671875,
      "learning_rate": 0.00048396145822985996,
      "loss": 0.522,
      "step": 79540
    },
    {
      "epoch": 3.951028111651932,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0004839217244462104,
      "loss": 0.5134,
      "step": 79550
    },
    {
      "epoch": 3.9515247839475514,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.00048388199066256085,
      "loss": 0.5682,
      "step": 79560
    },
    {
      "epoch": 3.9520214562431706,
      "grad_norm": 0.099609375,
      "learning_rate": 0.0004838422568789113,
      "loss": 0.4989,
      "step": 79570
    },
    {
      "epoch": 3.9525181285387903,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.00048380252309526174,
      "loss": 0.5383,
      "step": 79580
    },
    {
      "epoch": 3.9530148008344095,
      "grad_norm": 0.11572265625,
      "learning_rate": 0.0004837627893116122,
      "loss": 0.5253,
      "step": 79590
    },
    {
      "epoch": 3.9535114731300287,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0004837230555279627,
      "loss": 0.5204,
      "step": 79600
    },
    {
      "epoch": 3.9540081454256484,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.00048368332174431316,
      "loss": 0.5299,
      "step": 79610
    },
    {
      "epoch": 3.9545048177212676,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.00048364358796066357,
      "loss": 0.5158,
      "step": 79620
    },
    {
      "epoch": 3.955001490016887,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.00048360385417701404,
      "loss": 0.5451,
      "step": 79630
    },
    {
      "epoch": 3.955498162312506,
      "grad_norm": 0.12158203125,
      "learning_rate": 0.0004835641203933645,
      "loss": 0.5338,
      "step": 79640
    },
    {
      "epoch": 3.9559948346081253,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.00048352438660971493,
      "loss": 0.5416,
      "step": 79650
    },
    {
      "epoch": 3.956491506903745,
      "grad_norm": 0.109375,
      "learning_rate": 0.0004834846528260654,
      "loss": 0.5345,
      "step": 79660
    },
    {
      "epoch": 3.956988179199364,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0004834449190424159,
      "loss": 0.549,
      "step": 79670
    },
    {
      "epoch": 3.957484851494984,
      "grad_norm": 0.11962890625,
      "learning_rate": 0.00048340518525876624,
      "loss": 0.5493,
      "step": 79680
    },
    {
      "epoch": 3.957981523790603,
      "grad_norm": 0.10546875,
      "learning_rate": 0.00048336545147511676,
      "loss": 0.5484,
      "step": 79690
    },
    {
      "epoch": 3.9584781960862223,
      "grad_norm": 0.11669921875,
      "learning_rate": 0.00048332571769146723,
      "loss": 0.5111,
      "step": 79700
    },
    {
      "epoch": 3.9589748683818415,
      "grad_norm": 0.10986328125,
      "learning_rate": 0.0004832859839078176,
      "loss": 0.5525,
      "step": 79710
    },
    {
      "epoch": 3.9594715406774608,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.00048324625012416807,
      "loss": 0.516,
      "step": 79720
    },
    {
      "epoch": 3.9599682129730804,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.00048320651634051854,
      "loss": 0.5382,
      "step": 79730
    },
    {
      "epoch": 3.9604648852686997,
      "grad_norm": 0.10546875,
      "learning_rate": 0.00048316678255686896,
      "loss": 0.5643,
      "step": 79740
    },
    {
      "epoch": 3.9609615575643193,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.00048312704877321943,
      "loss": 0.5073,
      "step": 79750
    },
    {
      "epoch": 3.9614582298599386,
      "grad_norm": 0.1171875,
      "learning_rate": 0.0004830873149895699,
      "loss": 0.5077,
      "step": 79760
    },
    {
      "epoch": 3.961954902155558,
      "grad_norm": 0.123046875,
      "learning_rate": 0.00048304758120592037,
      "loss": 0.5649,
      "step": 79770
    },
    {
      "epoch": 3.962451574451177,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0004830078474222708,
      "loss": 0.5168,
      "step": 79780
    },
    {
      "epoch": 3.9629482467467962,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.00048296811363862126,
      "loss": 0.5375,
      "step": 79790
    },
    {
      "epoch": 3.963444919042416,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.00048292837985497173,
      "loss": 0.5512,
      "step": 79800
    },
    {
      "epoch": 3.963941591338035,
      "grad_norm": 0.10009765625,
      "learning_rate": 0.00048288864607132215,
      "loss": 0.5251,
      "step": 79810
    },
    {
      "epoch": 3.9644382636336544,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004828489122876726,
      "loss": 0.5405,
      "step": 79820
    },
    {
      "epoch": 3.964934935929274,
      "grad_norm": 0.10498046875,
      "learning_rate": 0.0004828091785040231,
      "loss": 0.5521,
      "step": 79830
    },
    {
      "epoch": 3.9654316082248933,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0004827694447203735,
      "loss": 0.5328,
      "step": 79840
    },
    {
      "epoch": 3.9659282805205125,
      "grad_norm": 0.12060546875,
      "learning_rate": 0.000482729710936724,
      "loss": 0.5432,
      "step": 79850
    },
    {
      "epoch": 3.9664249528161317,
      "grad_norm": 0.14453125,
      "learning_rate": 0.00048268997715307445,
      "loss": 0.542,
      "step": 79860
    },
    {
      "epoch": 3.9669216251117514,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0004826502433694248,
      "loss": 0.5276,
      "step": 79870
    },
    {
      "epoch": 3.9674182974073706,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.00048261050958577534,
      "loss": 0.5499,
      "step": 79880
    },
    {
      "epoch": 3.96791496970299,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.0004825707758021258,
      "loss": 0.5069,
      "step": 79890
    },
    {
      "epoch": 3.9684116419986095,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0004825310420184763,
      "loss": 0.5312,
      "step": 79900
    },
    {
      "epoch": 3.9689083142942287,
      "grad_norm": 0.125,
      "learning_rate": 0.00048249130823482665,
      "loss": 0.5259,
      "step": 79910
    },
    {
      "epoch": 3.969404986589848,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.00048245157445117717,
      "loss": 0.5166,
      "step": 79920
    },
    {
      "epoch": 3.969901658885467,
      "grad_norm": 0.107421875,
      "learning_rate": 0.00048241184066752764,
      "loss": 0.5314,
      "step": 79930
    },
    {
      "epoch": 3.970398331181087,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.000482372106883878,
      "loss": 0.5214,
      "step": 79940
    },
    {
      "epoch": 3.970895003476706,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0004823323731002285,
      "loss": 0.5146,
      "step": 79950
    },
    {
      "epoch": 3.9713916757723253,
      "grad_norm": 0.11279296875,
      "learning_rate": 0.000482292639316579,
      "loss": 0.538,
      "step": 79960
    },
    {
      "epoch": 3.971888348067945,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.00048225290553292937,
      "loss": 0.5395,
      "step": 79970
    },
    {
      "epoch": 3.9723850203635642,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.00048221317174927984,
      "loss": 0.5594,
      "step": 79980
    },
    {
      "epoch": 3.9728816926591835,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0004821734379656303,
      "loss": 0.5511,
      "step": 79990
    },
    {
      "epoch": 3.9733783649548027,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0004821337041819807,
      "loss": 0.5274,
      "step": 80000
    },
    {
      "epoch": 3.973875037250422,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.0004820939703983312,
      "loss": 0.5179,
      "step": 80010
    },
    {
      "epoch": 3.9743717095460416,
      "grad_norm": 0.162109375,
      "learning_rate": 0.00048205423661468167,
      "loss": 0.5516,
      "step": 80020
    },
    {
      "epoch": 3.974868381841661,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004820145028310321,
      "loss": 0.5319,
      "step": 80030
    },
    {
      "epoch": 3.9753650541372805,
      "grad_norm": 0.10546875,
      "learning_rate": 0.00048197476904738256,
      "loss": 0.5173,
      "step": 80040
    },
    {
      "epoch": 3.9758617264328997,
      "grad_norm": 0.1201171875,
      "learning_rate": 0.00048193503526373303,
      "loss": 0.5147,
      "step": 80050
    },
    {
      "epoch": 3.976358398728519,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004818953014800835,
      "loss": 0.5243,
      "step": 80060
    },
    {
      "epoch": 3.976855071024138,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0004818555676964339,
      "loss": 0.4932,
      "step": 80070
    },
    {
      "epoch": 3.9773517433197574,
      "grad_norm": 0.107421875,
      "learning_rate": 0.0004818158339127844,
      "loss": 0.5149,
      "step": 80080
    },
    {
      "epoch": 3.977848415615377,
      "grad_norm": 0.13671875,
      "learning_rate": 0.00048177610012913486,
      "loss": 0.5575,
      "step": 80090
    },
    {
      "epoch": 3.9783450879109963,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0004817363663454852,
      "loss": 0.5325,
      "step": 80100
    },
    {
      "epoch": 3.978841760206616,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.00048169663256183575,
      "loss": 0.5211,
      "step": 80110
    },
    {
      "epoch": 3.979338432502235,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.0004816568987781862,
      "loss": 0.4939,
      "step": 80120
    },
    {
      "epoch": 3.9798351047978544,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0004816171649945366,
      "loss": 0.5304,
      "step": 80130
    },
    {
      "epoch": 3.9803317770934736,
      "grad_norm": 0.111328125,
      "learning_rate": 0.00048157743121088705,
      "loss": 0.5244,
      "step": 80140
    },
    {
      "epoch": 3.980828449389093,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0004815376974272376,
      "loss": 0.5435,
      "step": 80150
    },
    {
      "epoch": 3.9813251216847125,
      "grad_norm": 0.12890625,
      "learning_rate": 0.00048149796364358794,
      "loss": 0.5387,
      "step": 80160
    },
    {
      "epoch": 3.9818217939803318,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0004814582298599384,
      "loss": 0.5371,
      "step": 80170
    },
    {
      "epoch": 3.982318466275951,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.0004814184960762889,
      "loss": 0.5091,
      "step": 80180
    },
    {
      "epoch": 3.9828151385715707,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0004813787622926393,
      "loss": 0.552,
      "step": 80190
    },
    {
      "epoch": 3.98331181086719,
      "grad_norm": 0.142578125,
      "learning_rate": 0.00048133902850898977,
      "loss": 0.4959,
      "step": 80200
    },
    {
      "epoch": 3.983808483162809,
      "grad_norm": 0.15625,
      "learning_rate": 0.00048129929472534024,
      "loss": 0.5101,
      "step": 80210
    },
    {
      "epoch": 3.9843051554584283,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.0004812595609416907,
      "loss": 0.5362,
      "step": 80220
    },
    {
      "epoch": 3.984801827754048,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.00048121982715804113,
      "loss": 0.5268,
      "step": 80230
    },
    {
      "epoch": 3.9852985000496672,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004811800933743916,
      "loss": 0.5353,
      "step": 80240
    },
    {
      "epoch": 3.9857951723452865,
      "grad_norm": 0.10546875,
      "learning_rate": 0.0004811403595907421,
      "loss": 0.5479,
      "step": 80250
    },
    {
      "epoch": 3.986291844640906,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.0004811006258070925,
      "loss": 0.5581,
      "step": 80260
    },
    {
      "epoch": 3.9867885169365254,
      "grad_norm": 0.125,
      "learning_rate": 0.00048106089202344296,
      "loss": 0.5255,
      "step": 80270
    },
    {
      "epoch": 3.9872851892321446,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.00048102115823979344,
      "loss": 0.5291,
      "step": 80280
    },
    {
      "epoch": 3.987781861527764,
      "grad_norm": 0.10693359375,
      "learning_rate": 0.00048098142445614385,
      "loss": 0.5187,
      "step": 80290
    },
    {
      "epoch": 3.9882785338233835,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0004809416906724943,
      "loss": 0.5122,
      "step": 80300
    },
    {
      "epoch": 3.9887752061190027,
      "grad_norm": 0.1298828125,
      "learning_rate": 0.0004809019568888448,
      "loss": 0.512,
      "step": 80310
    },
    {
      "epoch": 3.989271878414622,
      "grad_norm": 0.107421875,
      "learning_rate": 0.00048086222310519516,
      "loss": 0.5211,
      "step": 80320
    },
    {
      "epoch": 3.9897685507102416,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.00048082248932154563,
      "loss": 0.5828,
      "step": 80330
    },
    {
      "epoch": 3.990265223005861,
      "grad_norm": 0.146484375,
      "learning_rate": 0.00048078275553789615,
      "loss": 0.5629,
      "step": 80340
    },
    {
      "epoch": 3.99076189530148,
      "grad_norm": 0.11083984375,
      "learning_rate": 0.0004807430217542466,
      "loss": 0.544,
      "step": 80350
    },
    {
      "epoch": 3.9912585675970993,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.000480703287970597,
      "loss": 0.5288,
      "step": 80360
    },
    {
      "epoch": 3.9917552398927185,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.00048066355418694746,
      "loss": 0.5364,
      "step": 80370
    },
    {
      "epoch": 3.992251912188338,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.000480623820403298,
      "loss": 0.5254,
      "step": 80380
    },
    {
      "epoch": 3.9927485844839574,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.00048058408661964835,
      "loss": 0.5298,
      "step": 80390
    },
    {
      "epoch": 3.993245256779577,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0004805443528359988,
      "loss": 0.5143,
      "step": 80400
    },
    {
      "epoch": 3.9937419290751963,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004805046190523493,
      "loss": 0.5279,
      "step": 80410
    },
    {
      "epoch": 3.9942386013708155,
      "grad_norm": 0.109375,
      "learning_rate": 0.0004804648852686997,
      "loss": 0.543,
      "step": 80420
    },
    {
      "epoch": 3.9947352736664348,
      "grad_norm": 0.1005859375,
      "learning_rate": 0.0004804251514850502,
      "loss": 0.5356,
      "step": 80430
    },
    {
      "epoch": 3.995231945962054,
      "grad_norm": 0.1044921875,
      "learning_rate": 0.00048038541770140065,
      "loss": 0.5297,
      "step": 80440
    },
    {
      "epoch": 3.9957286182576737,
      "grad_norm": 0.11376953125,
      "learning_rate": 0.00048034568391775107,
      "loss": 0.5392,
      "step": 80450
    },
    {
      "epoch": 3.996225290553293,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.00048030595013410154,
      "loss": 0.5283,
      "step": 80460
    },
    {
      "epoch": 3.996721962848912,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.000480266216350452,
      "loss": 0.5134,
      "step": 80470
    },
    {
      "epoch": 3.997218635144532,
      "grad_norm": 0.166015625,
      "learning_rate": 0.00048022648256680243,
      "loss": 0.5283,
      "step": 80480
    },
    {
      "epoch": 3.997715307440151,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.0004801867487831529,
      "loss": 0.4861,
      "step": 80490
    },
    {
      "epoch": 3.9982119797357702,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.00048014701499950337,
      "loss": 0.488,
      "step": 80500
    },
    {
      "epoch": 3.9987086520313895,
      "grad_norm": 0.09765625,
      "learning_rate": 0.00048010728121585384,
      "loss": 0.5418,
      "step": 80510
    },
    {
      "epoch": 3.999205324327009,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.00048006754743220426,
      "loss": 0.5178,
      "step": 80520
    },
    {
      "epoch": 3.9997019966226284,
      "grad_norm": 0.134765625,
      "learning_rate": 0.00048002781364855473,
      "loss": 0.563,
      "step": 80530
    }
  ],
  "logging_steps": 10,
  "max_steps": 201340,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.538478197439201e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}