{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 2000,
  "global_step": 30000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0003333333333333333,
      "grad_norm": 5088.0,
      "learning_rate": 1.9e-05,
      "loss": 132.6959,
      "loss/crossentropy": 12.028920578956605,
      "loss/hidden": 18.7375,
      "loss/jsd": 0.0,
      "loss/logits": 10.20107181072235,
      "step": 10
    },
    {
      "epoch": 0.0006666666666666666,
      "grad_norm": 428.0,
      "grad_norm_var": 86465919.73333333,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 97.5714,
      "loss/crossentropy": 8.78247936964035,
      "loss/hidden": 18.70625,
      "loss/jsd": 0.0,
      "loss/logits": 6.826563286781311,
      "step": 20
    },
    {
      "epoch": 0.001,
      "grad_norm": 206.0,
      "grad_norm_var": 183176.66666666666,
      "learning_rate": 3.7e-05,
      "loss": 87.3595,
      "loss/crossentropy": 8.069220972061157,
      "loss/hidden": 18.36875,
      "loss/jsd": 0.0,
      "loss/logits": 6.267633223533631,
      "step": 30
    },
    {
      "epoch": 0.0013333333333333333,
      "grad_norm": 1064.0,
      "grad_norm_var": 99002.91666666667,
      "learning_rate": 4.600000000000001e-05,
      "loss": 84.1061,
      "loss/crossentropy": 7.728456330299378,
      "loss/hidden": 17.69375,
      "loss/jsd": 0.0,
      "loss/logits": 5.882031416893005,
      "step": 40
    },
    {
      "epoch": 0.0016666666666666668,
      "grad_norm": 474.0,
      "grad_norm_var": 84834.06666666667,
      "learning_rate": 5.500000000000001e-05,
      "loss": 75.8277,
      "loss/crossentropy": 6.95980271100998,
      "loss/hidden": 17.3125,
      "loss/jsd": 0.0,
      "loss/logits": 5.054542422294617,
      "step": 50
    },
    {
      "epoch": 0.002,
      "grad_norm": 616.0,
      "grad_norm_var": 52564.2,
      "learning_rate": 6.400000000000001e-05,
      "loss": 60.9591,
      "loss/crossentropy": 5.805091935396194,
      "loss/hidden": 15.93125,
      "loss/jsd": 0.0,
      "loss/logits": 3.9220160007476808,
      "step": 60
    },
    {
      "epoch": 0.0023333333333333335,
      "grad_norm": 384.0,
      "grad_norm_var": 67375.4,
      "learning_rate": 7.3e-05,
      "loss": 41.3956,
      "loss/crossentropy": 4.246163284778595,
      "loss/hidden": 13.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 2.3237137854099275,
      "step": 70
    },
    {
      "epoch": 0.0026666666666666666,
      "grad_norm": 272.0,
      "grad_norm_var": 11768.466666666667,
      "learning_rate": 8.200000000000001e-05,
      "loss": 28.7252,
      "loss/crossentropy": 3.3240436017513275,
      "loss/hidden": 11.096875,
      "loss/jsd": 0.0,
      "loss/logits": 1.4113391578197478,
      "step": 80
    },
    {
      "epoch": 0.003,
      "grad_norm": 298.0,
      "grad_norm_var": 2.1871038589218397e+17,
      "learning_rate": 9.1e-05,
      "loss": 24.0937,
      "loss/crossentropy": 3.320331507921219,
      "loss/hidden": 9.5125,
      "loss/jsd": 0.0,
      "loss/logits": 1.10816071331501,
      "step": 90
    },
    {
      "epoch": 0.0033333333333333335,
      "grad_norm": 288.0,
      "grad_norm_var": 5410.866666666667,
      "learning_rate": 0.0001,
      "loss": 21.4439,
      "loss/crossentropy": 2.901010638475418,
      "loss/hidden": 9.178125,
      "loss/jsd": 0.0,
      "loss/logits": 0.9687246754765511,
      "step": 100
    },
    {
      "epoch": 0.0036666666666666666,
      "grad_norm": 280.0,
      "grad_norm_var": 3854.6625,
      "learning_rate": 0.0001,
      "loss": 19.6349,
      "loss/crossentropy": 2.818925604224205,
      "loss/hidden": 8.39375,
      "loss/jsd": 0.0,
      "loss/logits": 0.8407707408070564,
      "step": 110
    },
    {
      "epoch": 0.004,
      "grad_norm": 222.0,
      "grad_norm_var": 1976.8958333333333,
      "learning_rate": 0.0001,
      "loss": 18.756,
      "loss/crossentropy": 2.66967076510191,
      "loss/hidden": 8.33125,
      "loss/jsd": 0.0,
      "loss/logits": 0.7849601306021213,
      "step": 120
    },
    {
      "epoch": 0.004333333333333333,
      "grad_norm": 163.0,
      "grad_norm_var": 1472.3833333333334,
      "learning_rate": 0.0001,
      "loss": 18.1448,
      "loss/crossentropy": 2.513835993409157,
      "loss/hidden": 8.1203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.7554221481084824,
      "step": 130
    },
    {
      "epoch": 0.004666666666666667,
      "grad_norm": 239.0,
      "grad_norm_var": 1318.5958333333333,
      "learning_rate": 0.0001,
      "loss": 17.6846,
      "loss/crossentropy": 2.591602721810341,
      "loss/hidden": 7.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.7016006924211979,
      "step": 140
    },
    {
      "epoch": 0.005,
      "grad_norm": 214.0,
      "grad_norm_var": 11592.6625,
      "learning_rate": 0.0001,
      "loss": 17.3952,
      "loss/crossentropy": 2.6045392960309983,
      "loss/hidden": 7.6734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.7216012105345726,
      "step": 150
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 188.0,
      "grad_norm_var": 1593.7625,
      "learning_rate": 0.0001,
      "loss": 16.5206,
      "loss/crossentropy": 2.59020614027977,
      "loss/hidden": 7.3015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.6340146750211716,
      "step": 160
    },
    {
      "epoch": 0.005666666666666667,
      "grad_norm": 174.0,
      "grad_norm_var": 1288.140625,
      "learning_rate": 0.0001,
      "loss": 16.4628,
      "loss/crossentropy": 2.5054407477378846,
      "loss/hidden": 7.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.667105832695961,
      "step": 170
    },
    {
      "epoch": 0.006,
      "grad_norm": 186.0,
      "grad_norm_var": 1223.015625,
      "learning_rate": 0.0001,
      "loss": 15.796,
      "loss/crossentropy": 2.3755379378795625,
      "loss/hidden": 7.1609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5874520897865295,
      "step": 180
    },
    {
      "epoch": 0.006333333333333333,
      "grad_norm": 107.5,
      "grad_norm_var": 1354.0239583333334,
      "learning_rate": 0.0001,
      "loss": 15.5922,
      "loss/crossentropy": 2.3762576043605805,
      "loss/hidden": 7.26484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.6503637298941612,
      "step": 190
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 109.5,
      "grad_norm_var": 3071.4,
      "learning_rate": 0.0001,
      "loss": 15.2694,
      "loss/crossentropy": 2.2902157098054885,
      "loss/hidden": 7.0265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.6195260547101498,
      "step": 200
    },
    {
      "epoch": 0.007,
      "grad_norm": 194.0,
      "grad_norm_var": 2804.890625,
      "learning_rate": 0.0001,
      "loss": 15.2413,
      "loss/crossentropy": 2.623681750893593,
      "loss/hidden": 6.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.6029888540506363,
      "step": 210
    },
    {
      "epoch": 0.007333333333333333,
      "grad_norm": 136.0,
      "grad_norm_var": 624.8989583333333,
      "learning_rate": 0.0001,
      "loss": 14.771,
      "loss/crossentropy": 2.319578641653061,
      "loss/hidden": 6.809375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5596946202218532,
      "step": 220
    },
    {
      "epoch": 0.007666666666666666,
      "grad_norm": 96.0,
      "grad_norm_var": 524.8989583333333,
      "learning_rate": 0.0001,
      "loss": 14.4901,
      "loss/crossentropy": 2.2120961263775825,
      "loss/hidden": 6.6609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5178675353527069,
      "step": 230
    },
    {
      "epoch": 0.008,
      "grad_norm": 119.0,
      "grad_norm_var": 801.0822916666667,
      "learning_rate": 0.0001,
      "loss": 14.4657,
      "loss/crossentropy": 2.444407218694687,
      "loss/hidden": 6.40546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.543676958233118,
      "step": 240
    },
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 266.0,
      "grad_norm_var": 1661.15,
      "learning_rate": 0.0001,
      "loss": 14.384,
      "loss/crossentropy": 2.4827089831233025,
      "loss/hidden": 6.49375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5518345102667809,
      "step": 250
    },
    {
      "epoch": 0.008666666666666666,
      "grad_norm": 171.0,
      "grad_norm_var": 1844.040625,
      "learning_rate": 0.0001,
      "loss": 14.1886,
      "loss/crossentropy": 2.3922463700175287,
      "loss/hidden": 6.5015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5299135472625494,
      "step": 260
    },
    {
      "epoch": 0.009,
      "grad_norm": 90.5,
      "grad_norm_var": 1093.9625,
      "learning_rate": 0.0001,
      "loss": 14.2358,
      "loss/crossentropy": 2.395447109639645,
      "loss/hidden": 6.4796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5689245201647282,
      "step": 270
    },
    {
      "epoch": 0.009333333333333334,
      "grad_norm": 123.0,
      "grad_norm_var": 597.1166666666667,
      "learning_rate": 0.0001,
      "loss": 13.9794,
      "loss/crossentropy": 2.240339662134647,
      "loss/hidden": 6.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5223498687148094,
      "step": 280
    },
    {
      "epoch": 0.009666666666666667,
      "grad_norm": 144.0,
      "grad_norm_var": 427.7,
      "learning_rate": 0.0001,
      "loss": 13.7849,
      "loss/crossentropy": 2.214311620593071,
      "loss/hidden": 6.26796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5229207530617714,
      "step": 290
    },
    {
      "epoch": 0.01,
      "grad_norm": 91.0,
      "grad_norm_var": 293.015625,
      "learning_rate": 0.0001,
      "loss": 13.5058,
      "loss/crossentropy": 2.431586265563965,
      "loss/hidden": 6.21015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5209170162677765,
      "step": 300
    },
    {
      "epoch": 0.010333333333333333,
      "grad_norm": 94.0,
      "grad_norm_var": 305.990625,
      "learning_rate": 0.0001,
      "loss": 13.5941,
      "loss/crossentropy": 2.4835646122694017,
      "loss/hidden": 5.96328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.48731190487742426,
      "step": 310
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 80.0,
      "grad_norm_var": 289.59583333333336,
      "learning_rate": 0.0001,
      "loss": 13.3078,
      "loss/crossentropy": 2.441184702515602,
      "loss/hidden": 5.97421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.46742800548672675,
      "step": 320
    },
    {
      "epoch": 0.011,
      "grad_norm": 102.0,
      "grad_norm_var": 257.42395833333336,
      "learning_rate": 0.0001,
      "loss": 13.0426,
      "loss/crossentropy": 2.2604060992598534,
      "loss/hidden": 6.03359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4528258040547371,
      "step": 330
    },
    {
      "epoch": 0.011333333333333334,
      "grad_norm": 96.5,
      "grad_norm_var": 2910.0958333333333,
      "learning_rate": 0.0001,
      "loss": 13.1213,
      "loss/crossentropy": 2.4144359961152078,
      "loss/hidden": 5.98203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.488891564682126,
      "step": 340
    },
    {
      "epoch": 0.011666666666666667,
      "grad_norm": 96.5,
      "grad_norm_var": 3266.95,
      "learning_rate": 0.0001,
      "loss": 13.0347,
      "loss/crossentropy": 2.3632063284516334,
      "loss/hidden": 5.91640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4649609446525574,
      "step": 350
    },
    {
      "epoch": 0.012,
      "grad_norm": 106.5,
      "grad_norm_var": 655.115625,
      "learning_rate": 0.0001,
      "loss": 12.8798,
      "loss/crossentropy": 2.2149820044636725,
      "loss/hidden": 6.115625,
      "loss/jsd": 0.0,
      "loss/logits": 0.47544198893010614,
      "step": 360
    },
    {
      "epoch": 0.012333333333333333,
      "grad_norm": 84.5,
      "grad_norm_var": 172.790625,
      "learning_rate": 0.0001,
      "loss": 12.8471,
      "loss/crossentropy": 2.5810438305139543,
      "loss/hidden": 6.00078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.48572778329253197,
      "step": 370
    },
    {
      "epoch": 0.012666666666666666,
      "grad_norm": 95.0,
      "grad_norm_var": 128.88333333333333,
      "learning_rate": 0.0001,
      "loss": 12.7666,
      "loss/crossentropy": 2.2736202508211134,
      "loss/hidden": 5.878125,
      "loss/jsd": 0.0,
      "loss/logits": 0.46869536861777306,
      "step": 380
    },
    {
      "epoch": 0.013,
      "grad_norm": 124.5,
      "grad_norm_var": 140.51666666666668,
      "learning_rate": 0.0001,
      "loss": 12.605,
      "loss/crossentropy": 2.276585566997528,
      "loss/hidden": 5.825,
      "loss/jsd": 0.0,
      "loss/logits": 0.45089508444070814,
      "step": 390
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 94.5,
      "grad_norm_var": 311.590625,
      "learning_rate": 0.0001,
      "loss": 12.5188,
      "loss/crossentropy": 2.4131533786654473,
      "loss/hidden": 5.66875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4504088945686817,
      "step": 400
    },
    {
      "epoch": 0.013666666666666667,
      "grad_norm": 83.5,
      "grad_norm_var": 364.76666666666665,
      "learning_rate": 0.0001,
      "loss": 12.4151,
      "loss/crossentropy": 2.1796241596341135,
      "loss/hidden": 5.73671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.435577293112874,
      "step": 410
    },
    {
      "epoch": 0.014,
      "grad_norm": 93.5,
      "grad_norm_var": 187.52395833333333,
      "learning_rate": 0.0001,
      "loss": 12.4676,
      "loss/crossentropy": 2.1736431539058687,
      "loss/hidden": 5.78359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4561117485165596,
      "step": 420
    },
    {
      "epoch": 0.014333333333333333,
      "grad_norm": 90.5,
      "grad_norm_var": 48.795833333333334,
      "learning_rate": 0.0001,
      "loss": 12.0711,
      "loss/crossentropy": 2.283279325067997,
      "loss/hidden": 5.45859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4215318731963634,
      "step": 430
    },
    {
      "epoch": 0.014666666666666666,
      "grad_norm": 89.5,
      "grad_norm_var": 49.42916666666667,
      "learning_rate": 0.0001,
      "loss": 12.1374,
      "loss/crossentropy": 2.291328126192093,
      "loss/hidden": 5.5125,
      "loss/jsd": 0.0,
      "loss/logits": 0.434352046251297,
      "step": 440
    },
    {
      "epoch": 0.015,
      "grad_norm": 92.0,
      "grad_norm_var": 156.45,
      "learning_rate": 0.0001,
      "loss": 12.1345,
      "loss/crossentropy": 2.4191192060709,
      "loss/hidden": 5.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4199687227606773,
      "step": 450
    },
    {
      "epoch": 0.015333333333333332,
      "grad_norm": 88.0,
      "grad_norm_var": 208.2625,
      "learning_rate": 0.0001,
      "loss": 12.1403,
      "loss/crossentropy": 2.1956121422350408,
      "loss/hidden": 5.4875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4142579145729542,
      "step": 460
    },
    {
      "epoch": 0.015666666666666666,
      "grad_norm": 89.0,
      "grad_norm_var": 140.31666666666666,
      "learning_rate": 0.0001,
      "loss": 12.0963,
      "loss/crossentropy": 2.2322947554290296,
      "loss/hidden": 5.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4137666640803218,
      "step": 470
    },
    {
      "epoch": 0.016,
      "grad_norm": 76.0,
      "grad_norm_var": 64.23333333333333,
      "learning_rate": 0.0001,
      "loss": 12.219,
      "loss/crossentropy": 2.3545165613293646,
      "loss/hidden": 5.5296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4294994674623013,
      "step": 480
    },
    {
      "epoch": 0.01633333333333333,
      "grad_norm": 83.0,
      "grad_norm_var": 58.915625,
      "learning_rate": 0.0001,
      "loss": 11.7744,
      "loss/crossentropy": 2.3146368995308877,
      "loss/hidden": 5.428125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4236735228449106,
      "step": 490
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 78.5,
      "grad_norm_var": 64.83229166666666,
      "learning_rate": 0.0001,
      "loss": 11.8087,
      "loss/crossentropy": 2.1017669927328826,
      "loss/hidden": 5.6140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4007458407431841,
      "step": 500
    },
    {
      "epoch": 0.017,
      "grad_norm": 79.0,
      "grad_norm_var": 105.6625,
      "learning_rate": 0.0001,
      "loss": 11.9731,
      "loss/crossentropy": 2.2921740829944612,
      "loss/hidden": 5.35390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4179579775780439,
      "step": 510
    },
    {
      "epoch": 0.017333333333333333,
      "grad_norm": 108.0,
      "grad_norm_var": 187.390625,
      "learning_rate": 0.0001,
      "loss": 11.6599,
      "loss/crossentropy": 2.2103257328271866,
      "loss/hidden": 5.28671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3849416717886925,
      "step": 520
    },
    {
      "epoch": 0.017666666666666667,
      "grad_norm": 81.5,
      "grad_norm_var": 107.10729166666667,
      "learning_rate": 0.0001,
      "loss": 12.1065,
      "loss/crossentropy": 2.397639387845993,
      "loss/hidden": 5.52265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.45107794776558874,
      "step": 530
    },
    {
      "epoch": 0.018,
      "grad_norm": 129.0,
      "grad_norm_var": 193.940625,
      "learning_rate": 0.0001,
      "loss": 11.7656,
      "loss/crossentropy": 2.3040026426315308,
      "loss/hidden": 5.2296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.39434340633451936,
      "step": 540
    },
    {
      "epoch": 0.018333333333333333,
      "grad_norm": 92.0,
      "grad_norm_var": 172.44895833333334,
      "learning_rate": 0.0001,
      "loss": 11.8646,
      "loss/crossentropy": 2.2055136799812316,
      "loss/hidden": 5.30703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3980072047561407,
      "step": 550
    },
    {
      "epoch": 0.018666666666666668,
      "grad_norm": 71.0,
      "grad_norm_var": 129.69895833333334,
      "learning_rate": 0.0001,
      "loss": 11.9471,
      "loss/crossentropy": 2.5020270466804506,
      "loss/hidden": 5.4015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.44894293025135995,
      "step": 560
    },
    {
      "epoch": 0.019,
      "grad_norm": 84.0,
      "grad_norm_var": 93.34895833333333,
      "learning_rate": 0.0001,
      "loss": 11.7947,
      "loss/crossentropy": 2.094514015316963,
      "loss/hidden": 5.4953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.40853818207979203,
      "step": 570
    },
    {
      "epoch": 0.019333333333333334,
      "grad_norm": 59.5,
      "grad_norm_var": 270.1322916666667,
      "learning_rate": 0.0001,
      "loss": 11.6187,
      "loss/crossentropy": 2.3205525130033493,
      "loss/hidden": 5.3140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4034106068313122,
      "step": 580
    },
    {
      "epoch": 0.019666666666666666,
      "grad_norm": 71.0,
      "grad_norm_var": 190.77395833333333,
      "learning_rate": 0.0001,
      "loss": 11.591,
      "loss/crossentropy": 2.110408242046833,
      "loss/hidden": 5.26328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3818111319094896,
      "step": 590
    },
    {
      "epoch": 0.02,
      "grad_norm": 78.5,
      "grad_norm_var": 245.09765625,
      "learning_rate": 0.0001,
      "loss": 11.5567,
      "loss/crossentropy": 2.301485204696655,
      "loss/hidden": 5.28671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.39956560730934143,
      "step": 600
    },
    {
      "epoch": 0.02033333333333333,
      "grad_norm": 85.0,
      "grad_norm_var": 210.44895833333334,
      "learning_rate": 0.0001,
      "loss": 11.4252,
      "loss/crossentropy": 2.115160013735294,
      "loss/hidden": 5.18671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3820294298231602,
      "step": 610
    },
    {
      "epoch": 0.020666666666666667,
      "grad_norm": 76.5,
      "grad_norm_var": 312.940625,
      "learning_rate": 0.0001,
      "loss": 11.7005,
      "loss/crossentropy": 2.3295557737350463,
      "loss/hidden": 5.3875,
      "loss/jsd": 0.0,
      "loss/logits": 0.40171602740883827,
      "step": 620
    },
    {
      "epoch": 0.021,
      "grad_norm": 84.0,
      "grad_norm_var": 189.29557291666666,
      "learning_rate": 0.0001,
      "loss": 11.3593,
      "loss/crossentropy": 2.1354906648397445,
      "loss/hidden": 5.2125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3748495355248451,
      "step": 630
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 109.0,
      "grad_norm_var": 1600.7072916666666,
      "learning_rate": 0.0001,
      "loss": 11.5477,
      "loss/crossentropy": 2.3208198621869087,
      "loss/hidden": 5.1359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.38336952701210975,
      "step": 640
    },
    {
      "epoch": 0.021666666666666667,
      "grad_norm": 89.5,
      "grad_norm_var": 1528.8166666666666,
      "learning_rate": 0.0001,
      "loss": 11.4408,
      "loss/crossentropy": 2.3916768223047256,
      "loss/hidden": 5.29375,
      "loss/jsd": 0.0,
      "loss/logits": 0.39794068187475207,
      "step": 650
    },
    {
      "epoch": 0.022,
      "grad_norm": 4294967296.0,
      "grad_norm_var": 1.1529214644399553e+18,
      "learning_rate": 0.0001,
      "loss": 11.5534,
      "loss/crossentropy": 2.384619304537773,
      "loss/hidden": 5.54375,
      "loss/jsd": 0.0,
      "loss/logits": 0.44498190060257914,
      "step": 660
    },
    {
      "epoch": 0.022333333333333334,
      "grad_norm": 73.5,
      "grad_norm_var": 1.152921464574173e+18,
      "learning_rate": 0.0001,
      "loss": 11.4083,
      "loss/crossentropy": 2.305806961655617,
      "loss/hidden": 5.1078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3943803641945124,
      "step": 670
    },
    {
      "epoch": 0.02266666666666667,
      "grad_norm": 82.5,
      "grad_norm_var": 56.72890625,
      "learning_rate": 0.0001,
      "loss": 11.2602,
      "loss/crossentropy": 2.3092581436038015,
      "loss/hidden": 5.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.39187341518700125,
      "step": 680
    },
    {
      "epoch": 0.023,
      "grad_norm": 65.0,
      "grad_norm_var": 117.25833333333334,
      "learning_rate": 0.0001,
      "loss": 11.1613,
      "loss/crossentropy": 2.324054108560085,
      "loss/hidden": 5.12578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3896127313375473,
      "step": 690
    },
    {
      "epoch": 0.023333333333333334,
      "grad_norm": 68.0,
      "grad_norm_var": 89.20833333333333,
      "learning_rate": 0.0001,
      "loss": 11.1875,
      "loss/crossentropy": 2.2932113975286486,
      "loss/hidden": 5.19453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.40212590657174585,
      "step": 700
    },
    {
      "epoch": 0.023666666666666666,
      "grad_norm": 79.5,
      "grad_norm_var": 90.28515625,
      "learning_rate": 0.0001,
      "loss": 11.3541,
      "loss/crossentropy": 2.4318029940128327,
      "loss/hidden": 5.1109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4051614128053188,
      "step": 710
    },
    {
      "epoch": 0.024,
      "grad_norm": 73.0,
      "grad_norm_var": 89.22473958333333,
      "learning_rate": 0.0001,
      "loss": 11.1475,
      "loss/crossentropy": 2.167645823955536,
      "loss/hidden": 5.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.43062909580767156,
      "step": 720
    },
    {
      "epoch": 0.024333333333333332,
      "grad_norm": 74.5,
      "grad_norm_var": 49.701822916666664,
      "learning_rate": 0.0001,
      "loss": 11.1669,
      "loss/crossentropy": 2.1876634269952775,
      "loss/hidden": 5.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3738254923373461,
      "step": 730
    },
    {
      "epoch": 0.024666666666666667,
      "grad_norm": 77.5,
      "grad_norm_var": 30.557291666666668,
      "learning_rate": 0.0001,
      "loss": 11.0079,
      "loss/crossentropy": 2.248200983554125,
      "loss/hidden": 5.09140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3778664033859968,
      "step": 740
    },
    {
      "epoch": 0.025,
      "grad_norm": 68.0,
      "grad_norm_var": 46.8625,
      "learning_rate": 0.0001,
      "loss": 11.0535,
      "loss/crossentropy": 2.162605920433998,
      "loss/hidden": 5.04921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.38323657512664794,
      "step": 750
    },
    {
      "epoch": 0.025333333333333333,
      "grad_norm": 63.5,
      "grad_norm_var": 83.825,
      "learning_rate": 0.0001,
      "loss": 11.126,
      "loss/crossentropy": 2.2463886097073553,
      "loss/hidden": 5.05390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3759196888655424,
      "step": 760
    },
    {
      "epoch": 0.025666666666666667,
      "grad_norm": 67.5,
      "grad_norm_var": 39.149739583333336,
      "learning_rate": 0.0001,
      "loss": 11.2542,
      "loss/crossentropy": 2.368313530087471,
      "loss/hidden": 5.025,
      "loss/jsd": 0.0,
      "loss/logits": 0.40871408879756926,
      "step": 770
    },
    {
      "epoch": 0.026,
      "grad_norm": 76.0,
      "grad_norm_var": 37.065625,
      "learning_rate": 0.0001,
      "loss": 11.2333,
      "loss/crossentropy": 2.2050742127001284,
      "loss/hidden": 5.03359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3826916288584471,
      "step": 780
    },
    {
      "epoch": 0.026333333333333334,
      "grad_norm": 71.5,
      "grad_norm_var": 50.54765625,
      "learning_rate": 0.0001,
      "loss": 10.8321,
      "loss/crossentropy": 2.2104426354169844,
      "loss/hidden": 4.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.34428741969168186,
      "step": 790
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 62.0,
      "grad_norm_var": 51.157291666666666,
      "learning_rate": 0.0001,
      "loss": 10.9576,
      "loss/crossentropy": 2.054627813398838,
      "loss/hidden": 5.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.37033863496035335,
      "step": 800
    },
    {
      "epoch": 0.027,
      "grad_norm": 71.0,
      "grad_norm_var": 30.090625,
      "learning_rate": 0.0001,
      "loss": 10.8745,
      "loss/crossentropy": 2.171517415344715,
      "loss/hidden": 5.04921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.36901252083480357,
      "step": 810
    },
    {
      "epoch": 0.027333333333333334,
      "grad_norm": 83.0,
      "grad_norm_var": 66.25833333333334,
      "learning_rate": 0.0001,
      "loss": 10.9984,
      "loss/crossentropy": 2.1388269782066347,
      "loss/hidden": 4.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3639502193778753,
      "step": 820
    },
    {
      "epoch": 0.027666666666666666,
      "grad_norm": 60.25,
      "grad_norm_var": 65.29895833333333,
      "learning_rate": 0.0001,
      "loss": 10.9877,
      "loss/crossentropy": 2.1383705154061317,
      "loss/hidden": 5.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.35995694771409037,
      "step": 830
    },
    {
      "epoch": 0.028,
      "grad_norm": 60.0,
      "grad_norm_var": 28.024739583333332,
      "learning_rate": 0.0001,
      "loss": 10.8345,
      "loss/crossentropy": 2.2445564195513725,
      "loss/hidden": 4.8421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35285502672195435,
      "step": 840
    },
    {
      "epoch": 0.028333333333333332,
      "grad_norm": 106.0,
      "grad_norm_var": 137.91432291666666,
      "learning_rate": 0.0001,
      "loss": 10.9112,
      "loss/crossentropy": 2.26119641661644,
      "loss/hidden": 4.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3745645940303802,
      "step": 850
    },
    {
      "epoch": 0.028666666666666667,
      "grad_norm": 61.5,
      "grad_norm_var": 270.00807291666666,
      "learning_rate": 0.0001,
      "loss": 10.9954,
      "loss/crossentropy": 2.2785057038068772,
      "loss/hidden": 5.071875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3852051142603159,
      "step": 860
    },
    {
      "epoch": 0.029,
      "grad_norm": 114.5,
      "grad_norm_var": 280.5541666666667,
      "learning_rate": 0.0001,
      "loss": 11.0732,
      "loss/crossentropy": 2.1508523888885973,
      "loss/hidden": 4.98984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.36836351118981836,
      "step": 870
    },
    {
      "epoch": 0.029333333333333333,
      "grad_norm": 84.5,
      "grad_norm_var": 265.72265625,
      "learning_rate": 0.0001,
      "loss": 10.9948,
      "loss/crossentropy": 2.407784271240234,
      "loss/hidden": 5.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4067291602492332,
      "step": 880
    },
    {
      "epoch": 0.029666666666666668,
      "grad_norm": 68.5,
      "grad_norm_var": 199.90182291666667,
      "learning_rate": 0.0001,
      "loss": 11.052,
      "loss/crossentropy": 2.266117498278618,
      "loss/hidden": 4.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3621700868010521,
      "step": 890
    },
    {
      "epoch": 0.03,
      "grad_norm": 66.0,
      "grad_norm_var": 79.33307291666667,
      "learning_rate": 0.0001,
      "loss": 10.8697,
      "loss/crossentropy": 2.2878661900758743,
      "loss/hidden": 4.9578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.38751605823636054,
      "step": 900
    },
    {
      "epoch": 0.030333333333333334,
      "grad_norm": 71.5,
      "grad_norm_var": 107.53333333333333,
      "learning_rate": 0.0001,
      "loss": 10.843,
      "loss/crossentropy": 2.1773984007537366,
      "loss/hidden": 4.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.35708251409232616,
      "step": 910
    },
    {
      "epoch": 0.030666666666666665,
      "grad_norm": 67.0,
      "grad_norm_var": 161.60390625,
      "learning_rate": 0.0001,
      "loss": 10.7503,
      "loss/crossentropy": 2.1578031152486803,
      "loss/hidden": 4.833984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.34460235945880413,
      "step": 920
    },
    {
      "epoch": 0.031,
      "grad_norm": 84.0,
      "grad_norm_var": 74.48307291666667,
      "learning_rate": 0.0001,
      "loss": 10.8098,
      "loss/crossentropy": 2.30833805501461,
      "loss/hidden": 4.9,
      "loss/jsd": 0.0,
      "loss/logits": 0.363369470089674,
      "step": 930
    },
    {
      "epoch": 0.03133333333333333,
      "grad_norm": 64.0,
      "grad_norm_var": 80.66848958333334,
      "learning_rate": 0.0001,
      "loss": 10.7164,
      "loss/crossentropy": 2.270130616426468,
      "loss/hidden": 4.9078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3668188262730837,
      "step": 940
    },
    {
      "epoch": 0.03166666666666667,
      "grad_norm": 61.75,
      "grad_norm_var": 31.870833333333334,
      "learning_rate": 0.0001,
      "loss": 10.7845,
      "loss/crossentropy": 2.313658607006073,
      "loss/hidden": 4.87734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.38930617440491916,
      "step": 950
    },
    {
      "epoch": 0.032,
      "grad_norm": 65.5,
      "grad_norm_var": 29.598958333333332,
      "learning_rate": 0.0001,
      "loss": 10.6697,
      "loss/crossentropy": 2.3520640432834625,
      "loss/hidden": 4.84921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.39863014221191406,
      "step": 960
    },
    {
      "epoch": 0.03233333333333333,
      "grad_norm": 5771362304.0,
      "grad_norm_var": 2.0817888831321674e+18,
      "learning_rate": 0.0001,
      "loss": 10.7484,
      "loss/crossentropy": 2.192959766089916,
      "loss/hidden": 4.798828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33885405771434307,
      "step": 970
    },
    {
      "epoch": 0.03266666666666666,
      "grad_norm": 51.25,
      "grad_norm_var": 2.081788882663244e+18,
      "learning_rate": 0.0001,
      "loss": 10.6531,
      "loss/crossentropy": 2.0819257736206054,
      "loss/hidden": 4.775,
      "loss/jsd": 0.0,
      "loss/logits": 0.3428235022351146,
      "step": 980
    },
    {
      "epoch": 0.033,
      "grad_norm": 63.0,
      "grad_norm_var": 35.618489583333336,
      "learning_rate": 0.0001,
      "loss": 10.8209,
      "loss/crossentropy": 2.250964765995741,
      "loss/hidden": 4.784375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3942587487399578,
      "step": 990
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 52.25,
      "grad_norm_var": 62.21015625,
      "learning_rate": 0.0001,
      "loss": 10.6187,
      "loss/crossentropy": 2.1501222252845764,
      "loss/hidden": 4.93984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3645794134587049,
      "step": 1000
    },
    {
      "epoch": 0.033666666666666664,
      "grad_norm": 147.0,
      "grad_norm_var": 810.01640625,
      "learning_rate": 0.0001,
      "loss": 10.7409,
      "loss/crossentropy": 2.265306806564331,
      "loss/hidden": 4.85390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3604784071445465,
      "step": 1010
    },
    {
      "epoch": 0.034,
      "grad_norm": 75.0,
      "grad_norm_var": 562.55,
      "learning_rate": 0.0001,
      "loss": 10.6671,
      "loss/crossentropy": 2.1804181709885597,
      "loss/hidden": 4.74765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3643572922796011,
      "step": 1020
    },
    {
      "epoch": 0.034333333333333334,
      "grad_norm": 72.0,
      "grad_norm_var": 76.40598958333334,
      "learning_rate": 0.0001,
      "loss": 10.7713,
      "loss/crossentropy": 2.3172024488449097,
      "loss/hidden": 4.83671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.37977495454251764,
      "step": 1030
    },
    {
      "epoch": 0.034666666666666665,
      "grad_norm": 57.25,
      "grad_norm_var": 179.57265625,
      "learning_rate": 0.0001,
      "loss": 10.7404,
      "loss/crossentropy": 2.346377784013748,
      "loss/hidden": 4.78046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.36581903472542765,
      "step": 1040
    },
    {
      "epoch": 0.035,
      "grad_norm": 50.0,
      "grad_norm_var": 17.880989583333335,
      "learning_rate": 0.0001,
      "loss": 10.6162,
      "loss/crossentropy": 2.27249199450016,
      "loss/hidden": 4.8953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.35631081983447077,
      "step": 1050
    },
    {
      "epoch": 0.035333333333333335,
      "grad_norm": 58.25,
      "grad_norm_var": 37.270572916666666,
      "learning_rate": 0.0001,
      "loss": 10.6205,
      "loss/crossentropy": 2.3702693939208985,
      "loss/hidden": 4.74921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3705620352178812,
      "step": 1060
    },
    {
      "epoch": 0.035666666666666666,
      "grad_norm": 59.75,
      "grad_norm_var": 36.85,
      "learning_rate": 0.0001,
      "loss": 10.6335,
      "loss/crossentropy": 2.2196707010269163,
      "loss/hidden": 4.776953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3813734740018845,
      "step": 1070
    },
    {
      "epoch": 0.036,
      "grad_norm": 71.5,
      "grad_norm_var": 35.77682291666667,
      "learning_rate": 0.0001,
      "loss": 10.6103,
      "loss/crossentropy": 2.0884764015674593,
      "loss/hidden": 4.862109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3436795238405466,
      "step": 1080
    },
    {
      "epoch": 0.036333333333333336,
      "grad_norm": 57.5,
      "grad_norm_var": 30.591666666666665,
      "learning_rate": 0.0001,
      "loss": 10.6457,
      "loss/crossentropy": 2.2101589158177375,
      "loss/hidden": 4.82109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3618529438972473,
      "step": 1090
    },
    {
      "epoch": 0.03666666666666667,
      "grad_norm": 55.0,
      "grad_norm_var": 23.695572916666666,
      "learning_rate": 0.0001,
      "loss": 10.6528,
      "loss/crossentropy": 2.122966104745865,
      "loss/hidden": 4.823828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3658104814589024,
      "step": 1100
    },
    {
      "epoch": 0.037,
      "grad_norm": 81.0,
      "grad_norm_var": 10727.665625,
      "learning_rate": 0.0001,
      "loss": 10.5432,
      "loss/crossentropy": 2.0415431298315525,
      "loss/hidden": 4.83515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3341557715088129,
      "step": 1110
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 50.0,
      "grad_norm_var": 98.640625,
      "learning_rate": 0.0001,
      "loss": 10.6684,
      "loss/crossentropy": 2.3639739483594893,
      "loss/hidden": 4.715234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3543642643839121,
      "step": 1120
    },
    {
      "epoch": 0.03766666666666667,
      "grad_norm": 51.25,
      "grad_norm_var": 404.8833333333333,
      "learning_rate": 0.0001,
      "loss": 10.5142,
      "loss/crossentropy": 2.2790277168154716,
      "loss/hidden": 4.78203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.335112139955163,
      "step": 1130
    },
    {
      "epoch": 0.038,
      "grad_norm": 66.0,
      "grad_norm_var": 80.90729166666667,
      "learning_rate": 0.0001,
      "loss": 10.5643,
      "loss/crossentropy": 2.3700348407030107,
      "loss/hidden": 4.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.35619163103401663,
      "step": 1140
    },
    {
      "epoch": 0.03833333333333333,
      "grad_norm": 52.0,
      "grad_norm_var": 128.78932291666666,
      "learning_rate": 0.0001,
      "loss": 10.547,
      "loss/crossentropy": 2.2056336015462876,
      "loss/hidden": 4.8265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3479484971612692,
      "step": 1150
    },
    {
      "epoch": 0.03866666666666667,
      "grad_norm": 57.75,
      "grad_norm_var": 47.465625,
      "learning_rate": 0.0001,
      "loss": 10.459,
      "loss/crossentropy": 2.33939877897501,
      "loss/hidden": 4.743359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3586887318640947,
      "step": 1160
    },
    {
      "epoch": 0.039,
      "grad_norm": 44.5,
      "grad_norm_var": 43.43515625,
      "learning_rate": 0.0001,
      "loss": 10.3386,
      "loss/crossentropy": 2.1996493458747866,
      "loss/hidden": 4.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.35360681600868704,
      "step": 1170
    },
    {
      "epoch": 0.03933333333333333,
      "grad_norm": 63.0,
      "grad_norm_var": 40115.25390625,
      "learning_rate": 0.0001,
      "loss": 10.4938,
      "loss/crossentropy": 2.345403802394867,
      "loss/hidden": 4.74375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3767122995108366,
      "step": 1180
    },
    {
      "epoch": 0.03966666666666667,
      "grad_norm": 55.0,
      "grad_norm_var": 39818.41223958333,
      "learning_rate": 0.0001,
      "loss": 10.633,
      "loss/crossentropy": 2.179220561683178,
      "loss/hidden": 4.80234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.36714412793517115,
      "step": 1190
    },
    {
      "epoch": 0.04,
      "grad_norm": 59.0,
      "grad_norm_var": 87.50416666666666,
      "learning_rate": 0.0001,
      "loss": 10.464,
      "loss/crossentropy": 2.324831709265709,
      "loss/hidden": 4.62578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3588165879249573,
      "step": 1200
    },
    {
      "epoch": 0.04033333333333333,
      "grad_norm": 52.5,
      "grad_norm_var": 22.1625,
      "learning_rate": 0.0001,
      "loss": 10.4303,
      "loss/crossentropy": 2.3655824601650237,
      "loss/hidden": 4.5671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.34746520072221754,
      "step": 1210
    },
    {
      "epoch": 0.04066666666666666,
      "grad_norm": 59.0,
      "grad_norm_var": 25.076822916666668,
      "learning_rate": 0.0001,
      "loss": 10.3775,
      "loss/crossentropy": 2.3404723912477494,
      "loss/hidden": 4.560546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35012954138219354,
      "step": 1220
    },
    {
      "epoch": 0.041,
      "grad_norm": 55.75,
      "grad_norm_var": 33.32057291666667,
      "learning_rate": 0.0001,
      "loss": 10.2275,
      "loss/crossentropy": 2.3334707781672477,
      "loss/hidden": 4.620703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33375904690474273,
      "step": 1230
    },
    {
      "epoch": 0.04133333333333333,
      "grad_norm": 54.25,
      "grad_norm_var": 56.390625,
      "learning_rate": 0.0001,
      "loss": 10.2067,
      "loss/crossentropy": 2.2778391599655152,
      "loss/hidden": 4.7,
      "loss/jsd": 0.0,
      "loss/logits": 0.36180679500102997,
      "step": 1240
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 48.0,
      "grad_norm_var": 58.657291666666666,
      "learning_rate": 0.0001,
      "loss": 10.3731,
      "loss/crossentropy": 2.1620317712426185,
      "loss/hidden": 4.6765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3339271958917379,
      "step": 1250
    },
    {
      "epoch": 0.042,
      "grad_norm": 60.75,
      "grad_norm_var": 38.33932291666667,
      "learning_rate": 0.0001,
      "loss": 10.356,
      "loss/crossentropy": 2.1490842700004578,
      "loss/hidden": 4.6578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3494755119085312,
      "step": 1260
    },
    {
      "epoch": 0.042333333333333334,
      "grad_norm": 54.0,
      "grad_norm_var": 30.624739583333334,
      "learning_rate": 0.0001,
      "loss": 10.3963,
      "loss/crossentropy": 2.255769196152687,
      "loss/hidden": 4.75390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.352866580337286,
      "step": 1270
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 46.25,
      "grad_norm_var": 41.215625,
      "learning_rate": 0.0001,
      "loss": 10.3482,
      "loss/crossentropy": 2.188653063029051,
      "loss/hidden": 4.7625,
      "loss/jsd": 0.0,
      "loss/logits": 0.35777630396187304,
      "step": 1280
    },
    {
      "epoch": 0.043,
      "grad_norm": 49.5,
      "grad_norm_var": 140.48333333333332,
      "learning_rate": 0.0001,
      "loss": 10.4993,
      "loss/crossentropy": 2.2085324838757514,
      "loss/hidden": 4.764453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.35029419548809526,
      "step": 1290
    },
    {
      "epoch": 0.043333333333333335,
      "grad_norm": 68.5,
      "grad_norm_var": 87.10807291666667,
      "learning_rate": 0.0001,
      "loss": 10.387,
      "loss/crossentropy": 2.0001343421638014,
      "loss/hidden": 4.740625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3210140850394964,
      "step": 1300
    },
    {
      "epoch": 0.043666666666666666,
      "grad_norm": 53.0,
      "grad_norm_var": 63.59348958333333,
      "learning_rate": 0.0001,
      "loss": 10.4462,
      "loss/crossentropy": 2.261654701828957,
      "loss/hidden": 4.64765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3344265431165695,
      "step": 1310
    },
    {
      "epoch": 0.044,
      "grad_norm": 51.25,
      "grad_norm_var": 141.92395833333333,
      "learning_rate": 0.0001,
      "loss": 10.3567,
      "loss/crossentropy": 2.2908728308975697,
      "loss/hidden": 4.7203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3544796362519264,
      "step": 1320
    },
    {
      "epoch": 0.044333333333333336,
      "grad_norm": 55.75,
      "grad_norm_var": 95.390625,
      "learning_rate": 0.0001,
      "loss": 10.2347,
      "loss/crossentropy": 2.342694191634655,
      "loss/hidden": 4.574609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33147499468177555,
      "step": 1330
    },
    {
      "epoch": 0.04466666666666667,
      "grad_norm": 63.0,
      "grad_norm_var": 143.86848958333334,
      "learning_rate": 0.0001,
      "loss": 10.2828,
      "loss/crossentropy": 2.1463702358305454,
      "loss/hidden": 4.641796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3379510557278991,
      "step": 1340
    },
    {
      "epoch": 0.045,
      "grad_norm": 58.0,
      "grad_norm_var": 145.73333333333332,
      "learning_rate": 0.0001,
      "loss": 10.4051,
      "loss/crossentropy": 2.1320372141897677,
      "loss/hidden": 4.6515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3248579815030098,
      "step": 1350
    },
    {
      "epoch": 0.04533333333333334,
      "grad_norm": 50.5,
      "grad_norm_var": 1564.9205729166667,
      "learning_rate": 0.0001,
      "loss": 10.3519,
      "loss/crossentropy": 2.390837848186493,
      "loss/hidden": 4.482421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33150205537676813,
      "step": 1360
    },
    {
      "epoch": 0.04566666666666667,
      "grad_norm": 57.0,
      "grad_norm_var": 86.76640625,
      "learning_rate": 0.0001,
      "loss": 10.2536,
      "loss/crossentropy": 2.238551476597786,
      "loss/hidden": 4.677734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32355707660317423,
      "step": 1370
    },
    {
      "epoch": 0.046,
      "grad_norm": 54.0,
      "grad_norm_var": 33.41848958333333,
      "learning_rate": 0.0001,
      "loss": 10.2308,
      "loss/crossentropy": 2.172594637423754,
      "loss/hidden": 4.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31351518500596287,
      "step": 1380
    },
    {
      "epoch": 0.04633333333333333,
      "grad_norm": 54.75,
      "grad_norm_var": 37.065625,
      "learning_rate": 0.0001,
      "loss": 10.1326,
      "loss/crossentropy": 2.299109023809433,
      "loss/hidden": 4.53359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3222783401608467,
      "step": 1390
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 55.5,
      "grad_norm_var": 97.47916666666667,
      "learning_rate": 0.0001,
      "loss": 10.4755,
      "loss/crossentropy": 2.1733594447374345,
      "loss/hidden": 4.76171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3652454580180347,
      "step": 1400
    },
    {
      "epoch": 0.047,
      "grad_norm": 54.25,
      "grad_norm_var": 66.57395833333334,
      "learning_rate": 0.0001,
      "loss": 10.3266,
      "loss/crossentropy": 2.2273528560996056,
      "loss/hidden": 4.498828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30771929658949376,
      "step": 1410
    },
    {
      "epoch": 0.04733333333333333,
      "grad_norm": 51.75,
      "grad_norm_var": 83.07395833333334,
      "learning_rate": 0.0001,
      "loss": 10.2202,
      "loss/crossentropy": 2.286280909180641,
      "loss/hidden": 4.652734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.34912221878767014,
      "step": 1420
    },
    {
      "epoch": 0.04766666666666667,
      "grad_norm": 54.0,
      "grad_norm_var": 236.29557291666666,
      "learning_rate": 0.0001,
      "loss": 10.2577,
      "loss/crossentropy": 2.1812940359115602,
      "loss/hidden": 4.534765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.33046910390257833,
      "step": 1430
    },
    {
      "epoch": 0.048,
      "grad_norm": 53.25,
      "grad_norm_var": 62.09765625,
      "learning_rate": 0.0001,
      "loss": 10.0937,
      "loss/crossentropy": 2.263388830423355,
      "loss/hidden": 4.46640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3291785676032305,
      "step": 1440
    },
    {
      "epoch": 0.04833333333333333,
      "grad_norm": 57.75,
      "grad_norm_var": 30.408072916666665,
      "learning_rate": 0.0001,
      "loss": 10.1197,
      "loss/crossentropy": 2.3318180561065676,
      "loss/hidden": 4.530078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32444748654961586,
      "step": 1450
    },
    {
      "epoch": 0.048666666666666664,
      "grad_norm": 46.25,
      "grad_norm_var": 51.42265625,
      "learning_rate": 0.0001,
      "loss": 10.2713,
      "loss/crossentropy": 2.0284368000924586,
      "loss/hidden": 4.673828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3348676819354296,
      "step": 1460
    },
    {
      "epoch": 0.049,
      "grad_norm": 47.5,
      "grad_norm_var": 12.757291666666667,
      "learning_rate": 0.0001,
      "loss": 10.1257,
      "loss/crossentropy": 2.2734193384647368,
      "loss/hidden": 4.6890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3383447080850601,
      "step": 1470
    },
    {
      "epoch": 0.04933333333333333,
      "grad_norm": 48.5,
      "grad_norm_var": 10.7625,
      "learning_rate": 0.0001,
      "loss": 10.1081,
      "loss/crossentropy": 2.1734183013439177,
      "loss/hidden": 4.680078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3549729684367776,
      "step": 1480
    },
    {
      "epoch": 0.049666666666666665,
      "grad_norm": 52.75,
      "grad_norm_var": 25.864322916666666,
      "learning_rate": 0.0001,
      "loss": 10.0498,
      "loss/crossentropy": 2.125520133972168,
      "loss/hidden": 4.56640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.33357073105871676,
      "step": 1490
    },
    {
      "epoch": 0.05,
      "grad_norm": 41.75,
      "grad_norm_var": 39.50182291666667,
      "learning_rate": 0.0001,
      "loss": 10.0335,
      "loss/crossentropy": 1.9868148412555455,
      "loss/hidden": 4.60703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3306591158732772,
      "step": 1500
    },
    {
      "epoch": 0.050333333333333334,
      "grad_norm": 54.0,
      "grad_norm_var": 25.6875,
      "learning_rate": 0.0001,
      "loss": 10.2335,
      "loss/crossentropy": 2.1235173836350443,
      "loss/hidden": 4.740234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3614276949316263,
      "step": 1510
    },
    {
      "epoch": 0.050666666666666665,
      "grad_norm": 51.75,
      "grad_norm_var": 32.75416666666667,
      "learning_rate": 0.0001,
      "loss": 10.2879,
      "loss/crossentropy": 2.2561273902654646,
      "loss/hidden": 4.503125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32090449519455433,
      "step": 1520
    },
    {
      "epoch": 0.051,
      "grad_norm": 47.75,
      "grad_norm_var": 37.532291666666666,
      "learning_rate": 0.0001,
      "loss": 10.0812,
      "loss/crossentropy": 2.144378663599491,
      "loss/hidden": 4.47890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29765736870467663,
      "step": 1530
    },
    {
      "epoch": 0.051333333333333335,
      "grad_norm": 46.5,
      "grad_norm_var": 24.870833333333334,
      "learning_rate": 0.0001,
      "loss": 10.0522,
      "loss/crossentropy": 2.2584436416625975,
      "loss/hidden": 4.6109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.34671921730041505,
      "step": 1540
    },
    {
      "epoch": 0.051666666666666666,
      "grad_norm": 61.75,
      "grad_norm_var": 32.15807291666667,
      "learning_rate": 0.0001,
      "loss": 9.9727,
      "loss/crossentropy": 2.290890319645405,
      "loss/hidden": 4.437109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33176828771829603,
      "step": 1550
    },
    {
      "epoch": 0.052,
      "grad_norm": 52.5,
      "grad_norm_var": 23.875,
      "learning_rate": 0.0001,
      "loss": 10.0301,
      "loss/crossentropy": 2.1280356660485267,
      "loss/hidden": 4.634375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30865246467292307,
      "step": 1560
    },
    {
      "epoch": 0.052333333333333336,
      "grad_norm": 46.25,
      "grad_norm_var": 23.5875,
      "learning_rate": 0.0001,
      "loss": 10.1737,
      "loss/crossentropy": 2.032886290922761,
      "loss/hidden": 4.7875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3365877510979772,
      "step": 1570
    },
    {
      "epoch": 0.05266666666666667,
      "grad_norm": 5100273664.0,
      "grad_norm_var": 1.6257994331790162e+18,
      "learning_rate": 0.0001,
      "loss": 10.0954,
      "loss/crossentropy": 2.1190722532570363,
      "loss/hidden": 4.566015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3125073878094554,
      "step": 1580
    },
    {
      "epoch": 0.053,
      "grad_norm": 48.0,
      "grad_norm_var": 1.6257994343053266e+18,
      "learning_rate": 0.0001,
      "loss": 10.2018,
      "loss/crossentropy": 2.222577328979969,
      "loss/hidden": 4.548828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31913691386580467,
      "step": 1590
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 53.5,
      "grad_norm_var": 34.01015625,
      "learning_rate": 0.0001,
      "loss": 10.0954,
      "loss/crossentropy": 2.093307490646839,
      "loss/hidden": 4.612109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31212261263281105,
      "step": 1600
    },
    {
      "epoch": 0.05366666666666667,
      "grad_norm": 48.75,
      "grad_norm_var": 35.86015625,
      "learning_rate": 0.0001,
      "loss": 10.0662,
      "loss/crossentropy": 2.234019846469164,
      "loss/hidden": 4.5765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31956249102950096,
      "step": 1610
    },
    {
      "epoch": 0.054,
      "grad_norm": 46.5,
      "grad_norm_var": 8.089322916666667,
      "learning_rate": 0.0001,
      "loss": 10.1413,
      "loss/crossentropy": 2.334869381785393,
      "loss/hidden": 4.3875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31581548042595387,
      "step": 1620
    },
    {
      "epoch": 0.05433333333333333,
      "grad_norm": 47.75,
      "grad_norm_var": 9.44140625,
      "learning_rate": 0.0001,
      "loss": 10.1052,
      "loss/crossentropy": 2.3633588939905166,
      "loss/hidden": 4.56875,
      "loss/jsd": 0.0,
      "loss/logits": 0.34331442005932333,
      "step": 1630
    },
    {
      "epoch": 0.05466666666666667,
      "grad_norm": 53.0,
      "grad_norm_var": 90.81640625,
      "learning_rate": 0.0001,
      "loss": 10.168,
      "loss/crossentropy": 2.4216663956642153,
      "loss/hidden": 4.409765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3401012416929007,
      "step": 1640
    },
    {
      "epoch": 0.055,
      "grad_norm": 51.75,
      "grad_norm_var": 39.29348958333333,
      "learning_rate": 0.0001,
      "loss": 10.0832,
      "loss/crossentropy": 2.063167358934879,
      "loss/hidden": 4.7140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3456306353211403,
      "step": 1650
    },
    {
      "epoch": 0.05533333333333333,
      "grad_norm": 46.75,
      "grad_norm_var": 26.27265625,
      "learning_rate": 0.0001,
      "loss": 10.072,
      "loss/crossentropy": 2.212946060299873,
      "loss/hidden": 4.4515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3171877060085535,
      "step": 1660
    },
    {
      "epoch": 0.05566666666666667,
      "grad_norm": 55.0,
      "grad_norm_var": 28.607291666666665,
      "learning_rate": 0.0001,
      "loss": 9.9379,
      "loss/crossentropy": 2.141632245481014,
      "loss/hidden": 4.5515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3336161907762289,
      "step": 1670
    },
    {
      "epoch": 0.056,
      "grad_norm": 50.25,
      "grad_norm_var": 24.514322916666668,
      "learning_rate": 0.0001,
      "loss": 10.1308,
      "loss/crossentropy": 2.2568211957812307,
      "loss/hidden": 4.49453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3477105274796486,
      "step": 1680
    },
    {
      "epoch": 0.05633333333333333,
      "grad_norm": 48.75,
      "grad_norm_var": 18.523958333333333,
      "learning_rate": 0.0001,
      "loss": 9.9396,
      "loss/crossentropy": 2.2201522469520567,
      "loss/hidden": 4.54453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.34930348955094814,
      "step": 1690
    },
    {
      "epoch": 0.056666666666666664,
      "grad_norm": 49.75,
      "grad_norm_var": 18.798958333333335,
      "learning_rate": 0.0001,
      "loss": 9.8497,
      "loss/crossentropy": 2.0173508882522584,
      "loss/hidden": 4.617578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33352648206055163,
      "step": 1700
    },
    {
      "epoch": 0.057,
      "grad_norm": 53.5,
      "grad_norm_var": 53.06848958333333,
      "learning_rate": 0.0001,
      "loss": 10.0437,
      "loss/crossentropy": 2.2075788587331773,
      "loss/hidden": 4.520703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3259766954928637,
      "step": 1710
    },
    {
      "epoch": 0.05733333333333333,
      "grad_norm": 47.5,
      "grad_norm_var": 12.4875,
      "learning_rate": 0.0001,
      "loss": 10.0156,
      "loss/crossentropy": 2.2491456001996992,
      "loss/hidden": 4.46796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32154099717736245,
      "step": 1720
    },
    {
      "epoch": 0.057666666666666665,
      "grad_norm": 51.5,
      "grad_norm_var": 22.698958333333334,
      "learning_rate": 0.0001,
      "loss": 10.1127,
      "loss/crossentropy": 2.2360637068748472,
      "loss/hidden": 4.599609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.34004257917404174,
      "step": 1730
    },
    {
      "epoch": 0.058,
      "grad_norm": 46.5,
      "grad_norm_var": 20.483072916666668,
      "learning_rate": 0.0001,
      "loss": 9.9202,
      "loss/crossentropy": 2.169334437698126,
      "loss/hidden": 4.485546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3213648945093155,
      "step": 1740
    },
    {
      "epoch": 0.058333333333333334,
      "grad_norm": 47.0,
      "grad_norm_var": 18.501822916666665,
      "learning_rate": 0.0001,
      "loss": 9.9663,
      "loss/crossentropy": 2.0624472610652447,
      "loss/hidden": 4.672265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.33040957022458317,
      "step": 1750
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 58.75,
      "grad_norm_var": 20.214322916666667,
      "learning_rate": 0.0001,
      "loss": 9.903,
      "loss/crossentropy": 2.3360592156648634,
      "loss/hidden": 4.465625,
      "loss/jsd": 0.0,
      "loss/logits": 0.34421659298241136,
      "step": 1760
    },
    {
      "epoch": 0.059,
      "grad_norm": 52.75,
      "grad_norm_var": 22.5125,
      "learning_rate": 0.0001,
      "loss": 10.0066,
      "loss/crossentropy": 2.2802910655736923,
      "loss/hidden": 4.39609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32004439644515514,
      "step": 1770
    },
    {
      "epoch": 0.059333333333333335,
      "grad_norm": 44.25,
      "grad_norm_var": 27.908072916666665,
      "learning_rate": 0.0001,
      "loss": 9.8284,
      "loss/crossentropy": 2.3136008724570276,
      "loss/hidden": 4.3859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31898586712777616,
      "step": 1780
    },
    {
      "epoch": 0.059666666666666666,
      "grad_norm": 45.75,
      "grad_norm_var": 33.890625,
      "learning_rate": 0.0001,
      "loss": 9.9335,
      "loss/crossentropy": 2.2768970370292663,
      "loss/hidden": 4.32265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31204146817326545,
      "step": 1790
    },
    {
      "epoch": 0.06,
      "grad_norm": 45.5,
      "grad_norm_var": 22.015625,
      "learning_rate": 0.0001,
      "loss": 9.9846,
      "loss/crossentropy": 2.2742267102003098,
      "loss/hidden": 4.58046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3438062757253647,
      "step": 1800
    },
    {
      "epoch": 0.060333333333333336,
      "grad_norm": 44.25,
      "grad_norm_var": 409.8541666666667,
      "learning_rate": 0.0001,
      "loss": 9.9716,
      "loss/crossentropy": 2.2834268152713775,
      "loss/hidden": 4.514453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33578878715634347,
      "step": 1810
    },
    {
      "epoch": 0.06066666666666667,
      "grad_norm": 65.0,
      "grad_norm_var": 437.6489583333333,
      "learning_rate": 0.0001,
      "loss": 10.0204,
      "loss/crossentropy": 2.2084247410297393,
      "loss/hidden": 4.514453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3214238926768303,
      "step": 1820
    },
    {
      "epoch": 0.061,
      "grad_norm": 47.25,
      "grad_norm_var": 63.00390625,
      "learning_rate": 0.0001,
      "loss": 9.8694,
      "loss/crossentropy": 2.4278147757053374,
      "loss/hidden": 4.340625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3172066226601601,
      "step": 1830
    },
    {
      "epoch": 0.06133333333333333,
      "grad_norm": 40.0,
      "grad_norm_var": 51.55807291666667,
      "learning_rate": 0.0001,
      "loss": 9.9545,
      "loss/crossentropy": 2.2956237584352492,
      "loss/hidden": 4.4421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33112434335052965,
      "step": 1840
    },
    {
      "epoch": 0.06166666666666667,
      "grad_norm": 44.5,
      "grad_norm_var": 62.907291666666666,
      "learning_rate": 0.0001,
      "loss": 9.9812,
      "loss/crossentropy": 2.143566229194403,
      "loss/hidden": 4.630078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3249357048422098,
      "step": 1850
    },
    {
      "epoch": 0.062,
      "grad_norm": 66.0,
      "grad_norm_var": 63.49166666666667,
      "learning_rate": 0.0001,
      "loss": 10.0621,
      "loss/crossentropy": 2.112970842421055,
      "loss/hidden": 4.344140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.290663880482316,
      "step": 1860
    },
    {
      "epoch": 0.06233333333333333,
      "grad_norm": 48.0,
      "grad_norm_var": 91.80416666666666,
      "learning_rate": 0.0001,
      "loss": 9.9348,
      "loss/crossentropy": 2.1757256247103216,
      "loss/hidden": 4.416796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.315375828742981,
      "step": 1870
    },
    {
      "epoch": 0.06266666666666666,
      "grad_norm": 48.25,
      "grad_norm_var": 2.0336566681475924e+18,
      "learning_rate": 0.0001,
      "loss": 10.1178,
      "loss/crossentropy": 2.209875613451004,
      "loss/hidden": 4.583203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3451205603778362,
      "step": 1880
    },
    {
      "epoch": 0.063,
      "grad_norm": 38.25,
      "grad_norm_var": 378.6205729166667,
      "learning_rate": 0.0001,
      "loss": 9.8686,
      "loss/crossentropy": 2.234115143120289,
      "loss/hidden": 4.44296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31297464594244956,
      "step": 1890
    },
    {
      "epoch": 0.06333333333333334,
      "grad_norm": 52.0,
      "grad_norm_var": 30.382291666666667,
      "learning_rate": 0.0001,
      "loss": 9.9681,
      "loss/crossentropy": 2.314877039194107,
      "loss/hidden": 4.561328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.34244176670908927,
      "step": 1900
    },
    {
      "epoch": 0.06366666666666666,
      "grad_norm": 59.0,
      "grad_norm_var": 534.7708333333334,
      "learning_rate": 0.0001,
      "loss": 10.1051,
      "loss/crossentropy": 2.148053403198719,
      "loss/hidden": 4.525,
      "loss/jsd": 0.0,
      "loss/logits": 0.3273327838629484,
      "step": 1910
    },
    {
      "epoch": 0.064,
      "grad_norm": 47.25,
      "grad_norm_var": 553.11015625,
      "learning_rate": 0.0001,
      "loss": 9.9442,
      "loss/crossentropy": 2.3466587856411936,
      "loss/hidden": 4.334765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31107306741178037,
      "step": 1920
    },
    {
      "epoch": 0.06433333333333334,
      "grad_norm": 50.0,
      "grad_norm_var": 42.541666666666664,
      "learning_rate": 0.0001,
      "loss": 9.8719,
      "loss/crossentropy": 2.252930277585983,
      "loss/hidden": 4.3234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3164752185344696,
      "step": 1930
    },
    {
      "epoch": 0.06466666666666666,
      "grad_norm": 46.25,
      "grad_norm_var": 34.29348958333333,
      "learning_rate": 0.0001,
      "loss": 9.7802,
      "loss/crossentropy": 2.1432655058801173,
      "loss/hidden": 4.53671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30679955538362264,
      "step": 1940
    },
    {
      "epoch": 0.065,
      "grad_norm": 40.0,
      "grad_norm_var": 29.705989583333334,
      "learning_rate": 0.0001,
      "loss": 9.8725,
      "loss/crossentropy": 2.2932953238487244,
      "loss/hidden": 4.425,
      "loss/jsd": 0.0,
      "loss/logits": 0.311083947122097,
      "step": 1950
    },
    {
      "epoch": 0.06533333333333333,
      "grad_norm": 47.25,
      "grad_norm_var": 40.08515625,
      "learning_rate": 0.0001,
      "loss": 9.8434,
      "loss/crossentropy": 2.1042870871722696,
      "loss/hidden": 4.48125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31923425998538735,
      "step": 1960
    },
    {
      "epoch": 0.06566666666666666,
      "grad_norm": 47.0,
      "grad_norm_var": 32.69583333333333,
      "learning_rate": 0.0001,
      "loss": 9.9911,
      "loss/crossentropy": 2.228940861672163,
      "loss/hidden": 4.470703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3330340197309852,
      "step": 1970
    },
    {
      "epoch": 0.066,
      "grad_norm": 49.5,
      "grad_norm_var": 19.858072916666668,
      "learning_rate": 0.0001,
      "loss": 9.8909,
      "loss/crossentropy": 2.365998923778534,
      "loss/hidden": 4.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3426622122526169,
      "step": 1980
    },
    {
      "epoch": 0.06633333333333333,
      "grad_norm": 70.0,
      "grad_norm_var": 43.84166666666667,
      "learning_rate": 0.0001,
      "loss": 9.8246,
      "loss/crossentropy": 2.21089443564415,
      "loss/hidden": 4.508203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33040032908320427,
      "step": 1990
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 46.0,
      "grad_norm_var": 200.29140625,
      "learning_rate": 0.0001,
      "loss": 9.9707,
      "loss/crossentropy": 2.161339648067951,
      "loss/hidden": 4.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33537587746977804,
      "step": 2000
    },
    {
      "epoch": 0.067,
      "grad_norm": 41.0,
      "grad_norm_var": 34.44166666666667,
      "learning_rate": 0.0001,
      "loss": 9.8169,
      "loss/crossentropy": 2.162997691333294,
      "loss/hidden": 4.3140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3058626361191273,
      "step": 2010
    },
    {
      "epoch": 0.06733333333333333,
      "grad_norm": 48.75,
      "grad_norm_var": 776.290625,
      "learning_rate": 0.0001,
      "loss": 9.8411,
      "loss/crossentropy": 2.1134648233652116,
      "loss/hidden": 4.4953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3073283813893795,
      "step": 2020
    },
    {
      "epoch": 0.06766666666666667,
      "grad_norm": 44.0,
      "grad_norm_var": 17.798958333333335,
      "learning_rate": 0.0001,
      "loss": 9.8272,
      "loss/crossentropy": 2.1669696398079394,
      "loss/hidden": 4.311328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3024018405005336,
      "step": 2030
    },
    {
      "epoch": 0.068,
      "grad_norm": 52.75,
      "grad_norm_var": 39.25,
      "learning_rate": 0.0001,
      "loss": 9.8041,
      "loss/crossentropy": 2.1358415842056275,
      "loss/hidden": 4.31796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2974515471607447,
      "step": 2040
    },
    {
      "epoch": 0.06833333333333333,
      "grad_norm": 50.25,
      "grad_norm_var": 372.12682291666664,
      "learning_rate": 0.0001,
      "loss": 9.8634,
      "loss/crossentropy": 2.179739834368229,
      "loss/hidden": 4.478125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31879689246416093,
      "step": 2050
    },
    {
      "epoch": 0.06866666666666667,
      "grad_norm": 55.5,
      "grad_norm_var": 1220.3247395833334,
      "learning_rate": 0.0001,
      "loss": 9.7749,
      "loss/crossentropy": 2.196292628347874,
      "loss/hidden": 4.4796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3256720818579197,
      "step": 2060
    },
    {
      "epoch": 0.069,
      "grad_norm": 63.75,
      "grad_norm_var": 930.6125,
      "learning_rate": 0.0001,
      "loss": 9.893,
      "loss/crossentropy": 2.2043800972402097,
      "loss/hidden": 4.47421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3335278692655265,
      "step": 2070
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 44.75,
      "grad_norm_var": 79.98723958333333,
      "learning_rate": 0.0001,
      "loss": 9.8999,
      "loss/crossentropy": 2.3483674988150596,
      "loss/hidden": 4.380078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33991905823349955,
      "step": 2080
    },
    {
      "epoch": 0.06966666666666667,
      "grad_norm": 47.0,
      "grad_norm_var": 29.093489583333334,
      "learning_rate": 0.0001,
      "loss": 9.9509,
      "loss/crossentropy": 2.418730080127716,
      "loss/hidden": 4.301953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31339589357376096,
      "step": 2090
    },
    {
      "epoch": 0.07,
      "grad_norm": 42.0,
      "grad_norm_var": 20.145572916666666,
      "learning_rate": 0.0001,
      "loss": 9.8714,
      "loss/crossentropy": 2.3859033226966857,
      "loss/hidden": 4.46953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33473276533186436,
      "step": 2100
    },
    {
      "epoch": 0.07033333333333333,
      "grad_norm": 45.75,
      "grad_norm_var": 18.748958333333334,
      "learning_rate": 0.0001,
      "loss": 9.6503,
      "loss/crossentropy": 2.0000314809381963,
      "loss/hidden": 4.35859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28535501156002285,
      "step": 2110
    },
    {
      "epoch": 0.07066666666666667,
      "grad_norm": 50.5,
      "grad_norm_var": 104.64348958333333,
      "learning_rate": 0.0001,
      "loss": 9.8653,
      "loss/crossentropy": 2.3264140084385874,
      "loss/hidden": 4.554296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3423323597759008,
      "step": 2120
    },
    {
      "epoch": 0.071,
      "grad_norm": 49.25,
      "grad_norm_var": 111.43932291666667,
      "learning_rate": 0.0001,
      "loss": 9.8327,
      "loss/crossentropy": 2.2525949284434317,
      "loss/hidden": 4.52578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3271168455481529,
      "step": 2130
    },
    {
      "epoch": 0.07133333333333333,
      "grad_norm": 48.25,
      "grad_norm_var": 34.56848958333333,
      "learning_rate": 0.0001,
      "loss": 9.7428,
      "loss/crossentropy": 2.1882525816559792,
      "loss/hidden": 4.42734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30069184843450786,
      "step": 2140
    },
    {
      "epoch": 0.07166666666666667,
      "grad_norm": 38.75,
      "grad_norm_var": 36.018489583333334,
      "learning_rate": 0.0001,
      "loss": 9.6677,
      "loss/crossentropy": 2.149352750182152,
      "loss/hidden": 4.32890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30152420345693826,
      "step": 2150
    },
    {
      "epoch": 0.072,
      "grad_norm": 47.5,
      "grad_norm_var": 41.665625,
      "learning_rate": 0.0001,
      "loss": 9.7964,
      "loss/crossentropy": 2.191788887232542,
      "loss/hidden": 4.412890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3204044759273529,
      "step": 2160
    },
    {
      "epoch": 0.07233333333333333,
      "grad_norm": 43.75,
      "grad_norm_var": 21.66015625,
      "learning_rate": 0.0001,
      "loss": 9.774,
      "loss/crossentropy": 2.057549092173576,
      "loss/hidden": 4.312890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29129388704895975,
      "step": 2170
    },
    {
      "epoch": 0.07266666666666667,
      "grad_norm": 69.5,
      "grad_norm_var": 1.4591662505790013e+18,
      "learning_rate": 0.0001,
      "loss": 9.8565,
      "loss/crossentropy": 2.1569569408893585,
      "loss/hidden": 4.54453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3287381026893854,
      "step": 2180
    },
    {
      "epoch": 0.073,
      "grad_norm": 41.5,
      "grad_norm_var": 1.459166249522037e+18,
      "learning_rate": 0.0001,
      "loss": 9.7733,
      "loss/crossentropy": 2.166168002039194,
      "loss/hidden": 4.42109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.314485302567482,
      "step": 2190
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 51.5,
      "grad_norm_var": 15.843489583333334,
      "learning_rate": 0.0001,
      "loss": 10.0454,
      "loss/crossentropy": 2.2209738835692407,
      "loss/hidden": 4.4734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3463482726365328,
      "step": 2200
    },
    {
      "epoch": 0.07366666666666667,
      "grad_norm": 47.25,
      "grad_norm_var": 25.479166666666668,
      "learning_rate": 0.0001,
      "loss": 9.6539,
      "loss/crossentropy": 2.225794421136379,
      "loss/hidden": 4.46640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3246209166944027,
      "step": 2210
    },
    {
      "epoch": 0.074,
      "grad_norm": 48.75,
      "grad_norm_var": 23.154166666666665,
      "learning_rate": 0.0001,
      "loss": 9.9317,
      "loss/crossentropy": 2.207696130871773,
      "loss/hidden": 4.442578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33632578104734423,
      "step": 2220
    },
    {
      "epoch": 0.07433333333333333,
      "grad_norm": 44.0,
      "grad_norm_var": 17.530989583333334,
      "learning_rate": 0.0001,
      "loss": 9.8728,
      "loss/crossentropy": 1.9358359836041927,
      "loss/hidden": 4.57578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30893346965312957,
      "step": 2230
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 41.25,
      "grad_norm_var": 356.12682291666664,
      "learning_rate": 0.0001,
      "loss": 9.7122,
      "loss/crossentropy": 2.1984036192297935,
      "loss/hidden": 4.46171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30973851270973685,
      "step": 2240
    },
    {
      "epoch": 0.075,
      "grad_norm": 48.25,
      "grad_norm_var": 126.44166666666666,
      "learning_rate": 0.0001,
      "loss": 9.9046,
      "loss/crossentropy": 2.2213550955057144,
      "loss/hidden": 4.4125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32458372712135314,
      "step": 2250
    },
    {
      "epoch": 0.07533333333333334,
      "grad_norm": 42.75,
      "grad_norm_var": 140.88515625,
      "learning_rate": 0.0001,
      "loss": 9.6263,
      "loss/crossentropy": 2.2533512063324452,
      "loss/hidden": 4.326953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2968948673456907,
      "step": 2260
    },
    {
      "epoch": 0.07566666666666666,
      "grad_norm": 40.75,
      "grad_norm_var": 30.940625,
      "learning_rate": 0.0001,
      "loss": 9.6899,
      "loss/crossentropy": 2.157477790862322,
      "loss/hidden": 4.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31756968759000304,
      "step": 2270
    },
    {
      "epoch": 0.076,
      "grad_norm": 40.25,
      "grad_norm_var": 48.38098958333333,
      "learning_rate": 0.0001,
      "loss": 9.767,
      "loss/crossentropy": 2.1325583457946777,
      "loss/hidden": 4.4203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3174896206706762,
      "step": 2280
    },
    {
      "epoch": 0.07633333333333334,
      "grad_norm": 44.0,
      "grad_norm_var": 292.840625,
      "learning_rate": 0.0001,
      "loss": 9.6629,
      "loss/crossentropy": 2.116827255487442,
      "loss/hidden": 4.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32861895225942134,
      "step": 2290
    },
    {
      "epoch": 0.07666666666666666,
      "grad_norm": 45.75,
      "grad_norm_var": 20.098958333333332,
      "learning_rate": 0.0001,
      "loss": 9.848,
      "loss/crossentropy": 2.2478859812021255,
      "loss/hidden": 4.432421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3231295388191938,
      "step": 2300
    },
    {
      "epoch": 0.077,
      "grad_norm": 44.5,
      "grad_norm_var": 21.03515625,
      "learning_rate": 0.0001,
      "loss": 9.7126,
      "loss/crossentropy": 2.2487671941518785,
      "loss/hidden": 4.370703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3190602418035269,
      "step": 2310
    },
    {
      "epoch": 0.07733333333333334,
      "grad_norm": 48.0,
      "grad_norm_var": 78.95,
      "learning_rate": 0.0001,
      "loss": 9.8802,
      "loss/crossentropy": 2.0769578374922277,
      "loss/hidden": 4.3765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2989305056631565,
      "step": 2320
    },
    {
      "epoch": 0.07766666666666666,
      "grad_norm": 47.0,
      "grad_norm_var": 88.0875,
      "learning_rate": 0.0001,
      "loss": 9.6776,
      "loss/crossentropy": 2.2335385888814927,
      "loss/hidden": 4.439453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3145127721130848,
      "step": 2330
    },
    {
      "epoch": 0.078,
      "grad_norm": 45.0,
      "grad_norm_var": 29.162239583333335,
      "learning_rate": 0.0001,
      "loss": 9.7538,
      "loss/crossentropy": 2.0275358721613883,
      "loss/hidden": 4.390234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3278283253312111,
      "step": 2340
    },
    {
      "epoch": 0.07833333333333334,
      "grad_norm": 46.0,
      "grad_norm_var": 15.825,
      "learning_rate": 0.0001,
      "loss": 9.7288,
      "loss/crossentropy": 2.2636055946350098,
      "loss/hidden": 4.3,
      "loss/jsd": 0.0,
      "loss/logits": 0.3025582984089851,
      "step": 2350
    },
    {
      "epoch": 0.07866666666666666,
      "grad_norm": 44.25,
      "grad_norm_var": 13.548958333333333,
      "learning_rate": 0.0001,
      "loss": 9.5923,
      "loss/crossentropy": 2.0806369572877883,
      "loss/hidden": 4.4328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3299530727788806,
      "step": 2360
    },
    {
      "epoch": 0.079,
      "grad_norm": 48.75,
      "grad_norm_var": 22.079166666666666,
      "learning_rate": 0.0001,
      "loss": 9.5852,
      "loss/crossentropy": 2.3268432706594466,
      "loss/hidden": 4.3140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30601568184792993,
      "step": 2370
    },
    {
      "epoch": 0.07933333333333334,
      "grad_norm": 42.75,
      "grad_norm_var": 20.670833333333334,
      "learning_rate": 0.0001,
      "loss": 9.5338,
      "loss/crossentropy": 2.1361410327255728,
      "loss/hidden": 4.1984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27998521625995637,
      "step": 2380
    },
    {
      "epoch": 0.07966666666666666,
      "grad_norm": 49.25,
      "grad_norm_var": 15.266666666666667,
      "learning_rate": 0.0001,
      "loss": 9.5332,
      "loss/crossentropy": 2.1129361763596535,
      "loss/hidden": 4.35390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29650157541036604,
      "step": 2390
    },
    {
      "epoch": 0.08,
      "grad_norm": 41.5,
      "grad_norm_var": 25.429166666666667,
      "learning_rate": 0.0001,
      "loss": 9.6695,
      "loss/crossentropy": 2.1574720084667205,
      "loss/hidden": 4.269921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2908360369503498,
      "step": 2400
    },
    {
      "epoch": 0.08033333333333334,
      "grad_norm": 47.75,
      "grad_norm_var": 27.645572916666666,
      "learning_rate": 0.0001,
      "loss": 9.6921,
      "loss/crossentropy": 2.1829341441392898,
      "loss/hidden": 4.381640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32286781407892706,
      "step": 2410
    },
    {
      "epoch": 0.08066666666666666,
      "grad_norm": 39.25,
      "grad_norm_var": 50.555989583333336,
      "learning_rate": 0.0001,
      "loss": 9.6315,
      "loss/crossentropy": 2.202047623693943,
      "loss/hidden": 4.3578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3005070973187685,
      "step": 2420
    },
    {
      "epoch": 0.081,
      "grad_norm": 55.0,
      "grad_norm_var": 59.32083333333333,
      "learning_rate": 0.0001,
      "loss": 9.6481,
      "loss/crossentropy": 2.036600667051971,
      "loss/hidden": 4.3484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29114639018662275,
      "step": 2430
    },
    {
      "epoch": 0.08133333333333333,
      "grad_norm": 46.75,
      "grad_norm_var": 23.999739583333334,
      "learning_rate": 0.0001,
      "loss": 9.6458,
      "loss/crossentropy": 2.2270599991083144,
      "loss/hidden": 4.397265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29978666119277475,
      "step": 2440
    },
    {
      "epoch": 0.08166666666666667,
      "grad_norm": 44.25,
      "grad_norm_var": 12.179166666666667,
      "learning_rate": 0.0001,
      "loss": 9.5471,
      "loss/crossentropy": 2.024305185675621,
      "loss/hidden": 4.57265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3118948549032211,
      "step": 2450
    },
    {
      "epoch": 0.082,
      "grad_norm": 44.75,
      "grad_norm_var": 34.35729166666667,
      "learning_rate": 0.0001,
      "loss": 9.6578,
      "loss/crossentropy": 2.293112243711948,
      "loss/hidden": 4.36640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3087532136589289,
      "step": 2460
    },
    {
      "epoch": 0.08233333333333333,
      "grad_norm": 45.5,
      "grad_norm_var": 54.340625,
      "learning_rate": 0.0001,
      "loss": 9.8106,
      "loss/crossentropy": 2.159098155796528,
      "loss/hidden": 4.462109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33799122273921967,
      "step": 2470
    },
    {
      "epoch": 0.08266666666666667,
      "grad_norm": 40.0,
      "grad_norm_var": 48.490625,
      "learning_rate": 0.0001,
      "loss": 9.6198,
      "loss/crossentropy": 2.1624063357710837,
      "loss/hidden": 4.332421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2944056583568454,
      "step": 2480
    },
    {
      "epoch": 0.083,
      "grad_norm": 40.75,
      "grad_norm_var": 10.579166666666667,
      "learning_rate": 0.0001,
      "loss": 9.3685,
      "loss/crossentropy": 1.9723315440118312,
      "loss/hidden": 4.365234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2733167437836528,
      "step": 2490
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 45.5,
      "grad_norm_var": 13.723958333333334,
      "learning_rate": 0.0001,
      "loss": 9.7588,
      "loss/crossentropy": 2.3331384271383286,
      "loss/hidden": 4.4953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3479126874357462,
      "step": 2500
    },
    {
      "epoch": 0.08366666666666667,
      "grad_norm": 86.5,
      "grad_norm_var": 176.58098958333332,
      "learning_rate": 0.0001,
      "loss": 9.604,
      "loss/crossentropy": 1.999950359016657,
      "loss/hidden": 4.355078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2928037021309137,
      "step": 2510
    },
    {
      "epoch": 0.084,
      "grad_norm": 49.75,
      "grad_norm_var": 139.44140625,
      "learning_rate": 0.0001,
      "loss": 9.6797,
      "loss/crossentropy": 2.1708203181624413,
      "loss/hidden": 4.387109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32291998714208603,
      "step": 2520
    },
    {
      "epoch": 0.08433333333333333,
      "grad_norm": 42.25,
      "grad_norm_var": 8.774739583333334,
      "learning_rate": 0.0001,
      "loss": 9.5592,
      "loss/crossentropy": 2.2025649711489677,
      "loss/hidden": 4.34453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29643226135522127,
      "step": 2530
    },
    {
      "epoch": 0.08466666666666667,
      "grad_norm": 46.25,
      "grad_norm_var": 9.9875,
      "learning_rate": 0.0001,
      "loss": 9.5765,
      "loss/crossentropy": 2.043403333425522,
      "loss/hidden": 4.23671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2749296611174941,
      "step": 2540
    },
    {
      "epoch": 0.085,
      "grad_norm": 48.75,
      "grad_norm_var": 31.115625,
      "learning_rate": 0.0001,
      "loss": 9.7494,
      "loss/crossentropy": 2.3262161046266554,
      "loss/hidden": 4.371875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32624533101916314,
      "step": 2550
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 48.75,
      "grad_norm_var": 57.76015625,
      "learning_rate": 0.0001,
      "loss": 9.7786,
      "loss/crossentropy": 2.222296068072319,
      "loss/hidden": 4.425390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3247109234333038,
      "step": 2560
    },
    {
      "epoch": 0.08566666666666667,
      "grad_norm": 42.25,
      "grad_norm_var": 79.12265625,
      "learning_rate": 0.0001,
      "loss": 9.5314,
      "loss/crossentropy": 2.2209610506892203,
      "loss/hidden": 4.214453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3056815842166543,
      "step": 2570
    },
    {
      "epoch": 0.086,
      "grad_norm": 40.25,
      "grad_norm_var": 11.74765625,
      "learning_rate": 0.0001,
      "loss": 9.6404,
      "loss/crossentropy": 2.27297485768795,
      "loss/hidden": 4.391015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3162984177470207,
      "step": 2580
    },
    {
      "epoch": 0.08633333333333333,
      "grad_norm": 43.75,
      "grad_norm_var": 49.432291666666664,
      "learning_rate": 0.0001,
      "loss": 9.7363,
      "loss/crossentropy": 2.1449129566550256,
      "loss/hidden": 4.16640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2817653050646186,
      "step": 2590
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 50.25,
      "grad_norm_var": 38.78307291666667,
      "learning_rate": 0.0001,
      "loss": 9.7758,
      "loss/crossentropy": 2.1352466866374016,
      "loss/hidden": 4.255078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2975259907543659,
      "step": 2600
    },
    {
      "epoch": 0.087,
      "grad_norm": 44.0,
      "grad_norm_var": 567.5809895833333,
      "learning_rate": 0.0001,
      "loss": 9.8575,
      "loss/crossentropy": 2.139151658862829,
      "loss/hidden": 4.4125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2895995612256229,
      "step": 2610
    },
    {
      "epoch": 0.08733333333333333,
      "grad_norm": 52.0,
      "grad_norm_var": 273.78932291666666,
      "learning_rate": 0.0001,
      "loss": 9.6349,
      "loss/crossentropy": 2.2437764003872873,
      "loss/hidden": 4.2875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32964606285095216,
      "step": 2620
    },
    {
      "epoch": 0.08766666666666667,
      "grad_norm": 41.25,
      "grad_norm_var": 14.832291666666666,
      "learning_rate": 0.0001,
      "loss": 9.8805,
      "loss/crossentropy": 2.3176336243748663,
      "loss/hidden": 4.34296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3469231605529785,
      "step": 2630
    },
    {
      "epoch": 0.088,
      "grad_norm": 42.5,
      "grad_norm_var": 63.924739583333334,
      "learning_rate": 0.0001,
      "loss": 9.6733,
      "loss/crossentropy": 2.3317414090037345,
      "loss/hidden": 4.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3158239943906665,
      "step": 2640
    },
    {
      "epoch": 0.08833333333333333,
      "grad_norm": 42.0,
      "grad_norm_var": 47.2625,
      "learning_rate": 0.0001,
      "loss": 9.53,
      "loss/crossentropy": 2.085783836245537,
      "loss/hidden": 4.154296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30830717273056507,
      "step": 2650
    },
    {
      "epoch": 0.08866666666666667,
      "grad_norm": 44.75,
      "grad_norm_var": 10.5125,
      "learning_rate": 0.0001,
      "loss": 9.6251,
      "loss/crossentropy": 2.1499151602387427,
      "loss/hidden": 4.29765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2804956670850515,
      "step": 2660
    },
    {
      "epoch": 0.089,
      "grad_norm": 38.5,
      "grad_norm_var": 11.532291666666667,
      "learning_rate": 0.0001,
      "loss": 9.6324,
      "loss/crossentropy": 2.209009498357773,
      "loss/hidden": 4.35,
      "loss/jsd": 0.0,
      "loss/logits": 0.3170790944248438,
      "step": 2670
    },
    {
      "epoch": 0.08933333333333333,
      "grad_norm": 39.75,
      "grad_norm_var": 18.598958333333332,
      "learning_rate": 0.0001,
      "loss": 9.5224,
      "loss/crossentropy": 2.2298269629478455,
      "loss/hidden": 4.39765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32219739593565466,
      "step": 2680
    },
    {
      "epoch": 0.08966666666666667,
      "grad_norm": 46.0,
      "grad_norm_var": 15.04140625,
      "learning_rate": 0.0001,
      "loss": 9.6132,
      "loss/crossentropy": 1.9786877676844596,
      "loss/hidden": 4.453515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32063512736931443,
      "step": 2690
    },
    {
      "epoch": 0.09,
      "grad_norm": 48.5,
      "grad_norm_var": 16.370572916666667,
      "learning_rate": 0.0001,
      "loss": 9.5549,
      "loss/crossentropy": 1.9581148944795133,
      "loss/hidden": 4.3390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2741738385986537,
      "step": 2700
    },
    {
      "epoch": 0.09033333333333333,
      "grad_norm": 39.25,
      "grad_norm_var": 39.25390625,
      "learning_rate": 0.0001,
      "loss": 9.584,
      "loss/crossentropy": 2.3024230673909187,
      "loss/hidden": 4.284765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31776211857795716,
      "step": 2710
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 49.0,
      "grad_norm_var": 17.290625,
      "learning_rate": 0.0001,
      "loss": 9.5623,
      "loss/crossentropy": 2.2617855593562126,
      "loss/hidden": 4.403515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32258614907041194,
      "step": 2720
    },
    {
      "epoch": 0.091,
      "grad_norm": 42.5,
      "grad_norm_var": 13.182291666666666,
      "learning_rate": 0.0001,
      "loss": 9.6273,
      "loss/crossentropy": 2.079073026776314,
      "loss/hidden": 4.480859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3417033176869154,
      "step": 2730
    },
    {
      "epoch": 0.09133333333333334,
      "grad_norm": 42.75,
      "grad_norm_var": 13.691666666666666,
      "learning_rate": 0.0001,
      "loss": 9.5346,
      "loss/crossentropy": 2.0505348153412344,
      "loss/hidden": 4.206640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2786023462191224,
      "step": 2740
    },
    {
      "epoch": 0.09166666666666666,
      "grad_norm": 41.0,
      "grad_norm_var": 14.207291666666666,
      "learning_rate": 0.0001,
      "loss": 9.4132,
      "loss/crossentropy": 2.0336243584752083,
      "loss/hidden": 4.423828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3069038312882185,
      "step": 2750
    },
    {
      "epoch": 0.092,
      "grad_norm": 42.25,
      "grad_norm_var": 22.057291666666668,
      "learning_rate": 0.0001,
      "loss": 9.5053,
      "loss/crossentropy": 2.140151581168175,
      "loss/hidden": 4.319140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2916400883346796,
      "step": 2760
    },
    {
      "epoch": 0.09233333333333334,
      "grad_norm": 39.75,
      "grad_norm_var": 15.432291666666666,
      "learning_rate": 0.0001,
      "loss": 9.5438,
      "loss/crossentropy": 2.1993202224373816,
      "loss/hidden": 4.226953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28949977159500123,
      "step": 2770
    },
    {
      "epoch": 0.09266666666666666,
      "grad_norm": 41.75,
      "grad_norm_var": 12.848958333333334,
      "learning_rate": 0.0001,
      "loss": 9.3797,
      "loss/crossentropy": 2.1902914479374886,
      "loss/hidden": 4.280859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28133582808077334,
      "step": 2780
    },
    {
      "epoch": 0.093,
      "grad_norm": 46.25,
      "grad_norm_var": 19.35,
      "learning_rate": 0.0001,
      "loss": 9.5715,
      "loss/crossentropy": 2.249551972001791,
      "loss/hidden": 4.199609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2843886561691761,
      "step": 2790
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 41.0,
      "grad_norm_var": 20.740625,
      "learning_rate": 0.0001,
      "loss": 9.6114,
      "loss/crossentropy": 2.228690019249916,
      "loss/hidden": 4.262109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.320504542812705,
      "step": 2800
    },
    {
      "epoch": 0.09366666666666666,
      "grad_norm": 43.0,
      "grad_norm_var": 8.529166666666667,
      "learning_rate": 0.0001,
      "loss": 9.5136,
      "loss/crossentropy": 2.291595259308815,
      "loss/hidden": 4.24375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3068136487156153,
      "step": 2810
    },
    {
      "epoch": 0.094,
      "grad_norm": 35.25,
      "grad_norm_var": 74.32395833333334,
      "learning_rate": 0.0001,
      "loss": 9.51,
      "loss/crossentropy": 2.192962332069874,
      "loss/hidden": 4.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2983078990131617,
      "step": 2820
    },
    {
      "epoch": 0.09433333333333334,
      "grad_norm": 39.75,
      "grad_norm_var": 191.76640625,
      "learning_rate": 0.0001,
      "loss": 9.5953,
      "loss/crossentropy": 2.2489975869655607,
      "loss/hidden": 4.309375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3156152920797467,
      "step": 2830
    },
    {
      "epoch": 0.09466666666666666,
      "grad_norm": 33.75,
      "grad_norm_var": 51.555989583333336,
      "learning_rate": 0.0001,
      "loss": 9.5037,
      "loss/crossentropy": 2.1171005085110663,
      "loss/hidden": 4.358984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29232311621308327,
      "step": 2840
    },
    {
      "epoch": 0.095,
      "grad_norm": 41.25,
      "grad_norm_var": 15.114322916666667,
      "learning_rate": 0.0001,
      "loss": 9.4713,
      "loss/crossentropy": 2.1562278002500532,
      "loss/hidden": 4.270703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32199123315513134,
      "step": 2850
    },
    {
      "epoch": 0.09533333333333334,
      "grad_norm": 50.25,
      "grad_norm_var": 15.640625,
      "learning_rate": 0.0001,
      "loss": 9.4132,
      "loss/crossentropy": 2.1052547857165336,
      "loss/hidden": 4.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28381253518164157,
      "step": 2860
    },
    {
      "epoch": 0.09566666666666666,
      "grad_norm": 38.75,
      "grad_norm_var": 13.95,
      "learning_rate": 0.0001,
      "loss": 9.5959,
      "loss/crossentropy": 2.2764726355671883,
      "loss/hidden": 4.232421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3202834574505687,
      "step": 2870
    },
    {
      "epoch": 0.096,
      "grad_norm": 36.5,
      "grad_norm_var": 6.601822916666666,
      "learning_rate": 0.0001,
      "loss": 9.4651,
      "loss/crossentropy": 2.2641511857509613,
      "loss/hidden": 4.339453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30131282322108743,
      "step": 2880
    },
    {
      "epoch": 0.09633333333333334,
      "grad_norm": 39.75,
      "grad_norm_var": 259.33229166666666,
      "learning_rate": 0.0001,
      "loss": 9.5955,
      "loss/crossentropy": 2.1798644959926605,
      "loss/hidden": 4.316015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.321273997426033,
      "step": 2890
    },
    {
      "epoch": 0.09666666666666666,
      "grad_norm": 42.25,
      "grad_norm_var": 265.51015625,
      "learning_rate": 0.0001,
      "loss": 9.4789,
      "loss/crossentropy": 2.2448938064277173,
      "loss/hidden": 4.21953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.295270549505949,
      "step": 2900
    },
    {
      "epoch": 0.097,
      "grad_norm": 39.5,
      "grad_norm_var": 22.404166666666665,
      "learning_rate": 0.0001,
      "loss": 9.4008,
      "loss/crossentropy": 2.1135250240564347,
      "loss/hidden": 4.376953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28801401853561404,
      "step": 2910
    },
    {
      "epoch": 0.09733333333333333,
      "grad_norm": 40.0,
      "grad_norm_var": 16.864322916666666,
      "learning_rate": 0.0001,
      "loss": 9.3394,
      "loss/crossentropy": 2.2067424938082696,
      "loss/hidden": 4.271484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28688893765211104,
      "step": 2920
    },
    {
      "epoch": 0.09766666666666667,
      "grad_norm": 46.25,
      "grad_norm_var": 16.148958333333333,
      "learning_rate": 0.0001,
      "loss": 9.5709,
      "loss/crossentropy": 2.375057080388069,
      "loss/hidden": 4.37734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3258885521441698,
      "step": 2930
    },
    {
      "epoch": 0.098,
      "grad_norm": 32.25,
      "grad_norm_var": 21.30390625,
      "learning_rate": 0.0001,
      "loss": 9.4697,
      "loss/crossentropy": 2.2150216475129128,
      "loss/hidden": 4.350390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.301010762155056,
      "step": 2940
    },
    {
      "epoch": 0.09833333333333333,
      "grad_norm": 40.75,
      "grad_norm_var": 14.576822916666666,
      "learning_rate": 0.0001,
      "loss": 9.5142,
      "loss/crossentropy": 2.166199879348278,
      "loss/hidden": 4.278125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30978226438164713,
      "step": 2950
    },
    {
      "epoch": 0.09866666666666667,
      "grad_norm": 43.25,
      "grad_norm_var": 6.07265625,
      "learning_rate": 0.0001,
      "loss": 9.4248,
      "loss/crossentropy": 2.0727218955755236,
      "loss/hidden": 4.240234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2816809505224228,
      "step": 2960
    },
    {
      "epoch": 0.099,
      "grad_norm": 43.0,
      "grad_norm_var": 9.79765625,
      "learning_rate": 0.0001,
      "loss": 9.296,
      "loss/crossentropy": 2.194628655910492,
      "loss/hidden": 4.23359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2876921635121107,
      "step": 2970
    },
    {
      "epoch": 0.09933333333333333,
      "grad_norm": 42.25,
      "grad_norm_var": 6.145572916666667,
      "learning_rate": 0.0001,
      "loss": 9.4016,
      "loss/crossentropy": 2.1081935077905656,
      "loss/hidden": 4.201171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2900088790804148,
      "step": 2980
    },
    {
      "epoch": 0.09966666666666667,
      "grad_norm": 38.75,
      "grad_norm_var": 5.890625,
      "learning_rate": 0.0001,
      "loss": 9.4648,
      "loss/crossentropy": 2.121137388050556,
      "loss/hidden": 4.300390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2918519277125597,
      "step": 2990
    },
    {
      "epoch": 0.1,
      "grad_norm": 44.75,
      "grad_norm_var": 328.47083333333336,
      "learning_rate": 0.0001,
      "loss": 9.6444,
      "loss/crossentropy": 2.127225194871426,
      "loss/hidden": 4.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30514415316283705,
      "step": 3000
    },
    {
      "epoch": 0.10033333333333333,
      "grad_norm": 39.5,
      "grad_norm_var": 307.89348958333335,
      "learning_rate": 0.0001,
      "loss": 9.6355,
      "loss/crossentropy": 2.250686952471733,
      "loss/hidden": 4.398828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30530925914645196,
      "step": 3010
    },
    {
      "epoch": 0.10066666666666667,
      "grad_norm": 36.75,
      "grad_norm_var": 20.974739583333335,
      "learning_rate": 0.0001,
      "loss": 9.5967,
      "loss/crossentropy": 2.182039903104305,
      "loss/hidden": 4.254296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29223496429622176,
      "step": 3020
    },
    {
      "epoch": 0.101,
      "grad_norm": 36.25,
      "grad_norm_var": 19.032291666666666,
      "learning_rate": 0.0001,
      "loss": 9.2889,
      "loss/crossentropy": 2.193696314841509,
      "loss/hidden": 4.347265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31729465052485467,
      "step": 3030
    },
    {
      "epoch": 0.10133333333333333,
      "grad_norm": 41.25,
      "grad_norm_var": 5.1625,
      "learning_rate": 0.0001,
      "loss": 9.2799,
      "loss/crossentropy": 1.9293710552155972,
      "loss/hidden": 4.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29089682549238205,
      "step": 3040
    },
    {
      "epoch": 0.10166666666666667,
      "grad_norm": 46.75,
      "grad_norm_var": 94.43932291666667,
      "learning_rate": 0.0001,
      "loss": 9.5891,
      "loss/crossentropy": 2.186572279036045,
      "loss/hidden": 4.351171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31275569424033167,
      "step": 3050
    },
    {
      "epoch": 0.102,
      "grad_norm": 39.5,
      "grad_norm_var": 96.21015625,
      "learning_rate": 0.0001,
      "loss": 9.4484,
      "loss/crossentropy": 2.1623737648129464,
      "loss/hidden": 4.15390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27935802303254603,
      "step": 3060
    },
    {
      "epoch": 0.10233333333333333,
      "grad_norm": 34.0,
      "grad_norm_var": 23.951822916666668,
      "learning_rate": 0.0001,
      "loss": 9.3534,
      "loss/crossentropy": 2.1772946141660214,
      "loss/hidden": 4.130859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2741739235818386,
      "step": 3070
    },
    {
      "epoch": 0.10266666666666667,
      "grad_norm": 40.5,
      "grad_norm_var": 1.9625138775123822e+18,
      "learning_rate": 0.0001,
      "loss": 9.5206,
      "loss/crossentropy": 2.2383458808064463,
      "loss/hidden": 4.276171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28973059728741646,
      "step": 3080
    },
    {
      "epoch": 0.103,
      "grad_norm": 40.25,
      "grad_norm_var": 2.9817910414744924e+18,
      "learning_rate": 0.0001,
      "loss": 9.55,
      "loss/crossentropy": 2.3438141733407973,
      "loss/hidden": 4.469140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3148787975311279,
      "step": 3090
    },
    {
      "epoch": 0.10333333333333333,
      "grad_norm": 40.25,
      "grad_norm_var": 1.2261049715428168e+18,
      "learning_rate": 0.0001,
      "loss": 9.5073,
      "loss/crossentropy": 2.3278582096099854,
      "loss/hidden": 4.212109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29142517112195493,
      "step": 3100
    },
    {
      "epoch": 0.10366666666666667,
      "grad_norm": 38.0,
      "grad_norm_var": 291.4830729166667,
      "learning_rate": 0.0001,
      "loss": 9.424,
      "loss/crossentropy": 2.1446138307452203,
      "loss/hidden": 4.2796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3030157912522554,
      "step": 3110
    },
    {
      "epoch": 0.104,
      "grad_norm": 42.5,
      "grad_norm_var": 567.9125,
      "learning_rate": 0.0001,
      "loss": 9.5702,
      "loss/crossentropy": 2.243132984638214,
      "loss/hidden": 4.39296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35173722021281717,
      "step": 3120
    },
    {
      "epoch": 0.10433333333333333,
      "grad_norm": 35.5,
      "grad_norm_var": 327.62395833333335,
      "learning_rate": 0.0001,
      "loss": 9.5972,
      "loss/crossentropy": 2.124360602349043,
      "loss/hidden": 4.216015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2907536863349378,
      "step": 3130
    },
    {
      "epoch": 0.10466666666666667,
      "grad_norm": 52.75,
      "grad_norm_var": 22.407291666666666,
      "learning_rate": 0.0001,
      "loss": 9.437,
      "loss/crossentropy": 2.2831270948052405,
      "loss/hidden": 4.153515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.291528220102191,
      "step": 3140
    },
    {
      "epoch": 0.105,
      "grad_norm": 40.0,
      "grad_norm_var": 1.8926377153833818e+18,
      "learning_rate": 0.0001,
      "loss": 9.4417,
      "loss/crossentropy": 2.0570017248392105,
      "loss/hidden": 4.233984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28441670089960097,
      "step": 3150
    },
    {
      "epoch": 0.10533333333333333,
      "grad_norm": 39.75,
      "grad_norm_var": 7.590625,
      "learning_rate": 0.0001,
      "loss": 9.184,
      "loss/crossentropy": 2.362034395337105,
      "loss/hidden": 4.20234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30373654775321485,
      "step": 3160
    },
    {
      "epoch": 0.10566666666666667,
      "grad_norm": 40.75,
      "grad_norm_var": 9.939322916666667,
      "learning_rate": 0.0001,
      "loss": 9.4179,
      "loss/crossentropy": 2.137139005959034,
      "loss/hidden": 4.36796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30007231421768665,
      "step": 3170
    },
    {
      "epoch": 0.106,
      "grad_norm": 43.25,
      "grad_norm_var": 168.83229166666666,
      "learning_rate": 0.0001,
      "loss": 9.5242,
      "loss/crossentropy": 2.084735092520714,
      "loss/hidden": 4.266015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29063573814928534,
      "step": 3180
    },
    {
      "epoch": 0.10633333333333334,
      "grad_norm": 39.75,
      "grad_norm_var": 13.895833333333334,
      "learning_rate": 0.0001,
      "loss": 9.3732,
      "loss/crossentropy": 2.0884271055459975,
      "loss/hidden": 4.301953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.292556369304657,
      "step": 3190
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 40.25,
      "grad_norm_var": 10.104166666666666,
      "learning_rate": 0.0001,
      "loss": 9.409,
      "loss/crossentropy": 2.1861984208226204,
      "loss/hidden": 4.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3046982977539301,
      "step": 3200
    },
    {
      "epoch": 0.107,
      "grad_norm": 33.25,
      "grad_norm_var": 19.754166666666666,
      "learning_rate": 0.0001,
      "loss": 9.333,
      "loss/crossentropy": 2.1967382043600083,
      "loss/hidden": 4.280859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3142522796988487,
      "step": 3210
    },
    {
      "epoch": 0.10733333333333334,
      "grad_norm": 37.75,
      "grad_norm_var": 15.83515625,
      "learning_rate": 0.0001,
      "loss": 9.4087,
      "loss/crossentropy": 2.099241575598717,
      "loss/hidden": 4.223046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3019026231020689,
      "step": 3220
    },
    {
      "epoch": 0.10766666666666666,
      "grad_norm": 36.75,
      "grad_norm_var": 12.68515625,
      "learning_rate": 0.0001,
      "loss": 9.3162,
      "loss/crossentropy": 2.0056164607405664,
      "loss/hidden": 4.308984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2895685002207756,
      "step": 3230
    },
    {
      "epoch": 0.108,
      "grad_norm": 51.75,
      "grad_norm_var": 25.812239583333334,
      "learning_rate": 0.0001,
      "loss": 9.4161,
      "loss/crossentropy": 2.194224573671818,
      "loss/hidden": 4.276953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2994342103600502,
      "step": 3240
    },
    {
      "epoch": 0.10833333333333334,
      "grad_norm": 37.75,
      "grad_norm_var": 30.448958333333334,
      "learning_rate": 0.0001,
      "loss": 9.3774,
      "loss/crossentropy": 2.1500812068581583,
      "loss/hidden": 4.316796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.297881081327796,
      "step": 3250
    },
    {
      "epoch": 0.10866666666666666,
      "grad_norm": 50.0,
      "grad_norm_var": 15.873958333333333,
      "learning_rate": 0.0001,
      "loss": 9.3746,
      "loss/crossentropy": 2.149769604206085,
      "loss/hidden": 4.337890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2857384353876114,
      "step": 3260
    },
    {
      "epoch": 0.109,
      "grad_norm": 49.25,
      "grad_norm_var": 23.241666666666667,
      "learning_rate": 0.0001,
      "loss": 9.4298,
      "loss/crossentropy": 2.1580600261688234,
      "loss/hidden": 4.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2893156711012125,
      "step": 3270
    },
    {
      "epoch": 0.10933333333333334,
      "grad_norm": 42.0,
      "grad_norm_var": 14.820572916666666,
      "learning_rate": 0.0001,
      "loss": 9.3562,
      "loss/crossentropy": 2.285036212205887,
      "loss/hidden": 4.28984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3082501322031021,
      "step": 3280
    },
    {
      "epoch": 0.10966666666666666,
      "grad_norm": 37.0,
      "grad_norm_var": 6.114322916666667,
      "learning_rate": 0.0001,
      "loss": 9.6223,
      "loss/crossentropy": 2.2134475603699686,
      "loss/hidden": 4.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28552069552242754,
      "step": 3290
    },
    {
      "epoch": 0.11,
      "grad_norm": 33.75,
      "grad_norm_var": 13.50390625,
      "learning_rate": 0.0001,
      "loss": 9.3289,
      "loss/crossentropy": 2.1722410164773462,
      "loss/hidden": 4.277734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2915722324512899,
      "step": 3300
    },
    {
      "epoch": 0.11033333333333334,
      "grad_norm": 39.5,
      "grad_norm_var": 12.824739583333333,
      "learning_rate": 0.0001,
      "loss": 9.3712,
      "loss/crossentropy": 1.9897394858300685,
      "loss/hidden": 4.20390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2664288356900215,
      "step": 3310
    },
    {
      "epoch": 0.11066666666666666,
      "grad_norm": 37.25,
      "grad_norm_var": 13.051822916666667,
      "learning_rate": 0.0001,
      "loss": 9.21,
      "loss/crossentropy": 2.109373450279236,
      "loss/hidden": 4.2296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2850793283432722,
      "step": 3320
    },
    {
      "epoch": 0.111,
      "grad_norm": 42.5,
      "grad_norm_var": 14.47890625,
      "learning_rate": 0.0001,
      "loss": 9.2866,
      "loss/crossentropy": 2.2932792961597444,
      "loss/hidden": 4.23203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30185060724616053,
      "step": 3330
    },
    {
      "epoch": 0.11133333333333334,
      "grad_norm": 39.25,
      "grad_norm_var": 8.583333333333334,
      "learning_rate": 0.0001,
      "loss": 9.427,
      "loss/crossentropy": 2.1133791759610174,
      "loss/hidden": 4.183984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29095215909183025,
      "step": 3340
    },
    {
      "epoch": 0.11166666666666666,
      "grad_norm": 36.25,
      "grad_norm_var": 12.520572916666667,
      "learning_rate": 0.0001,
      "loss": 9.3503,
      "loss/crossentropy": 2.032514417171478,
      "loss/hidden": 4.228515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2894793044775724,
      "step": 3350
    },
    {
      "epoch": 0.112,
      "grad_norm": 52.5,
      "grad_norm_var": 24.51640625,
      "learning_rate": 0.0001,
      "loss": 9.3076,
      "loss/crossentropy": 1.9752195596694946,
      "loss/hidden": 4.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2814787019044161,
      "step": 3360
    },
    {
      "epoch": 0.11233333333333333,
      "grad_norm": 34.75,
      "grad_norm_var": 28.245833333333334,
      "learning_rate": 0.0001,
      "loss": 9.4876,
      "loss/crossentropy": 2.3702859327197077,
      "loss/hidden": 4.1859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3126111339777708,
      "step": 3370
    },
    {
      "epoch": 0.11266666666666666,
      "grad_norm": 34.5,
      "grad_norm_var": 20.070572916666666,
      "learning_rate": 0.0001,
      "loss": 9.2654,
      "loss/crossentropy": 1.8932878598570824,
      "loss/hidden": 4.261328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2764943749643862,
      "step": 3380
    },
    {
      "epoch": 0.113,
      "grad_norm": 41.0,
      "grad_norm_var": 11.174739583333333,
      "learning_rate": 0.0001,
      "loss": 9.4906,
      "loss/crossentropy": 2.155991692841053,
      "loss/hidden": 4.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2793617382645607,
      "step": 3390
    },
    {
      "epoch": 0.11333333333333333,
      "grad_norm": 39.75,
      "grad_norm_var": 7.01015625,
      "learning_rate": 0.0001,
      "loss": 9.3088,
      "loss/crossentropy": 2.093905381858349,
      "loss/hidden": 4.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3261349702253938,
      "step": 3400
    },
    {
      "epoch": 0.11366666666666667,
      "grad_norm": 39.75,
      "grad_norm_var": 46.25,
      "learning_rate": 0.0001,
      "loss": 9.486,
      "loss/crossentropy": 2.1121586173772813,
      "loss/hidden": 4.215625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2922355983406305,
      "step": 3410
    },
    {
      "epoch": 0.114,
      "grad_norm": 35.5,
      "grad_norm_var": 5.224739583333333,
      "learning_rate": 0.0001,
      "loss": 9.3474,
      "loss/crossentropy": 2.177844299376011,
      "loss/hidden": 4.23671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29271903187036513,
      "step": 3420
    },
    {
      "epoch": 0.11433333333333333,
      "grad_norm": 49.75,
      "grad_norm_var": 15.948958333333334,
      "learning_rate": 0.0001,
      "loss": 9.4016,
      "loss/crossentropy": 2.2300315856933595,
      "loss/hidden": 4.13828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29194765314459803,
      "step": 3430
    },
    {
      "epoch": 0.11466666666666667,
      "grad_norm": 40.75,
      "grad_norm_var": 20.995833333333334,
      "learning_rate": 0.0001,
      "loss": 9.2609,
      "loss/crossentropy": 2.072411538660526,
      "loss/hidden": 4.219140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2944797810167074,
      "step": 3440
    },
    {
      "epoch": 0.115,
      "grad_norm": 35.25,
      "grad_norm_var": 23.179166666666667,
      "learning_rate": 0.0001,
      "loss": 9.3101,
      "loss/crossentropy": 2.106787271797657,
      "loss/hidden": 4.253515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2934326458722353,
      "step": 3450
    },
    {
      "epoch": 0.11533333333333333,
      "grad_norm": 35.0,
      "grad_norm_var": 21.362239583333334,
      "learning_rate": 0.0001,
      "loss": 9.3648,
      "loss/crossentropy": 2.1898166716098784,
      "loss/hidden": 4.171484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29939313270151613,
      "step": 3460
    },
    {
      "epoch": 0.11566666666666667,
      "grad_norm": 41.0,
      "grad_norm_var": 10.940625,
      "learning_rate": 0.0001,
      "loss": 9.2795,
      "loss/crossentropy": 2.3480966717004774,
      "loss/hidden": 4.236328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.304421117156744,
      "step": 3470
    },
    {
      "epoch": 0.116,
      "grad_norm": 39.75,
      "grad_norm_var": 5.11015625,
      "learning_rate": 0.0001,
      "loss": 9.361,
      "loss/crossentropy": 2.061821439862251,
      "loss/hidden": 4.258203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.280943001806736,
      "step": 3480
    },
    {
      "epoch": 0.11633333333333333,
      "grad_norm": 38.75,
      "grad_norm_var": 5.082291666666666,
      "learning_rate": 0.0001,
      "loss": 9.2472,
      "loss/crossentropy": 2.089048261940479,
      "loss/hidden": 4.203515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27816532738506794,
      "step": 3490
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 39.25,
      "grad_norm_var": 5.648958333333334,
      "learning_rate": 0.0001,
      "loss": 9.3,
      "loss/crossentropy": 2.0424555987119675,
      "loss/hidden": 4.278515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2886748146265745,
      "step": 3500
    },
    {
      "epoch": 0.117,
      "grad_norm": 41.25,
      "grad_norm_var": 5.230989583333334,
      "learning_rate": 0.0001,
      "loss": 9.3444,
      "loss/crossentropy": 2.2320514231920243,
      "loss/hidden": 4.188671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29398479498922825,
      "step": 3510
    },
    {
      "epoch": 0.11733333333333333,
      "grad_norm": 32.0,
      "grad_norm_var": 14.45,
      "learning_rate": 0.0001,
      "loss": 9.352,
      "loss/crossentropy": 2.0569834411144257,
      "loss/hidden": 4.1828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28648389838635924,
      "step": 3520
    },
    {
      "epoch": 0.11766666666666667,
      "grad_norm": 40.5,
      "grad_norm_var": 15.245572916666667,
      "learning_rate": 0.0001,
      "loss": 9.2835,
      "loss/crossentropy": 2.1193760722875594,
      "loss/hidden": 4.11171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.277429373562336,
      "step": 3530
    },
    {
      "epoch": 0.118,
      "grad_norm": 40.25,
      "grad_norm_var": 9.59140625,
      "learning_rate": 0.0001,
      "loss": 9.2573,
      "loss/crossentropy": 2.1044032208621504,
      "loss/hidden": 4.258984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2949466461315751,
      "step": 3540
    },
    {
      "epoch": 0.11833333333333333,
      "grad_norm": 43.0,
      "grad_norm_var": 15.15,
      "learning_rate": 0.0001,
      "loss": 9.1153,
      "loss/crossentropy": 2.07734075859189,
      "loss/hidden": 4.13203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2726396777667105,
      "step": 3550
    },
    {
      "epoch": 0.11866666666666667,
      "grad_norm": 41.75,
      "grad_norm_var": 9.605989583333333,
      "learning_rate": 0.0001,
      "loss": 9.189,
      "loss/crossentropy": 2.196866528689861,
      "loss/hidden": 4.25546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3004810862243176,
      "step": 3560
    },
    {
      "epoch": 0.119,
      "grad_norm": 36.75,
      "grad_norm_var": 47.27682291666667,
      "learning_rate": 0.0001,
      "loss": 9.089,
      "loss/crossentropy": 2.297177466750145,
      "loss/hidden": 4.2296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3052255652844906,
      "step": 3570
    },
    {
      "epoch": 0.11933333333333333,
      "grad_norm": 37.75,
      "grad_norm_var": 321.41432291666666,
      "learning_rate": 0.0001,
      "loss": 9.2827,
      "loss/crossentropy": 2.129167598485947,
      "loss/hidden": 4.31171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.304591753706336,
      "step": 3580
    },
    {
      "epoch": 0.11966666666666667,
      "grad_norm": 40.25,
      "grad_norm_var": 345.54973958333335,
      "learning_rate": 0.0001,
      "loss": 9.3048,
      "loss/crossentropy": 2.1689872413873674,
      "loss/hidden": 4.12578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27596075274050236,
      "step": 3590
    },
    {
      "epoch": 0.12,
      "grad_norm": 40.0,
      "grad_norm_var": 17.140625,
      "learning_rate": 0.0001,
      "loss": 9.2268,
      "loss/crossentropy": 1.9578171581029893,
      "loss/hidden": 4.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28636636175215247,
      "step": 3600
    },
    {
      "epoch": 0.12033333333333333,
      "grad_norm": 41.0,
      "grad_norm_var": 68.175,
      "learning_rate": 0.0001,
      "loss": 9.1787,
      "loss/crossentropy": 2.067359810322523,
      "loss/hidden": 4.250390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28545970730483533,
      "step": 3610
    },
    {
      "epoch": 0.12066666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 29.920572916666668,
      "learning_rate": 0.0001,
      "loss": 9.2359,
      "loss/crossentropy": 2.2047273397445677,
      "loss/hidden": 4.180078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28760180845856664,
      "step": 3620
    },
    {
      "epoch": 0.121,
      "grad_norm": 38.25,
      "grad_norm_var": 13.314322916666667,
      "learning_rate": 0.0001,
      "loss": 9.0908,
      "loss/crossentropy": 2.1291835106909276,
      "loss/hidden": 4.183984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2917652137577534,
      "step": 3630
    },
    {
      "epoch": 0.12133333333333333,
      "grad_norm": 41.25,
      "grad_norm_var": 11.356184895833334,
      "learning_rate": 0.0001,
      "loss": 9.2854,
      "loss/crossentropy": 2.2793887823820116,
      "loss/hidden": 4.24765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30008267536759375,
      "step": 3640
    },
    {
      "epoch": 0.12166666666666667,
      "grad_norm": 36.5,
      "grad_norm_var": 56.16920572916667,
      "learning_rate": 0.0001,
      "loss": 9.2821,
      "loss/crossentropy": 2.2533405125141144,
      "loss/hidden": 4.32109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30765612684190274,
      "step": 3650
    },
    {
      "epoch": 0.122,
      "grad_norm": 42.5,
      "grad_norm_var": 53.973958333333336,
      "learning_rate": 0.0001,
      "loss": 9.2816,
      "loss/crossentropy": 2.294741216301918,
      "loss/hidden": 4.243359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29128187969326974,
      "step": 3660
    },
    {
      "epoch": 0.12233333333333334,
      "grad_norm": 37.0,
      "grad_norm_var": 18.740625,
      "learning_rate": 0.0001,
      "loss": 9.2943,
      "loss/crossentropy": 2.073512817919254,
      "loss/hidden": 4.188671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2968620590865612,
      "step": 3670
    },
    {
      "epoch": 0.12266666666666666,
      "grad_norm": 43.0,
      "grad_norm_var": 13.92890625,
      "learning_rate": 0.0001,
      "loss": 9.1891,
      "loss/crossentropy": 2.0943071067333223,
      "loss/hidden": 4.151171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2801366148516536,
      "step": 3680
    },
    {
      "epoch": 0.123,
      "grad_norm": 40.5,
      "grad_norm_var": 11.00390625,
      "learning_rate": 0.0001,
      "loss": 9.1903,
      "loss/crossentropy": 2.0213806182146072,
      "loss/hidden": 4.13359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27214346677064893,
      "step": 3690
    },
    {
      "epoch": 0.12333333333333334,
      "grad_norm": 50.0,
      "grad_norm_var": 1.5413569484339108e+18,
      "learning_rate": 0.0001,
      "loss": 9.2765,
      "loss/crossentropy": 2.103906211256981,
      "loss/hidden": 4.205078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30408407263457776,
      "step": 3700
    },
    {
      "epoch": 0.12366666666666666,
      "grad_norm": 34.5,
      "grad_norm_var": 1.541356947316548e+18,
      "learning_rate": 0.0001,
      "loss": 9.2341,
      "loss/crossentropy": 2.2875989854335783,
      "loss/hidden": 4.12421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29328348860144615,
      "step": 3710
    },
    {
      "epoch": 0.124,
      "grad_norm": 40.25,
      "grad_norm_var": 20.280989583333334,
      "learning_rate": 0.0001,
      "loss": 9.3043,
      "loss/crossentropy": 2.302832932770252,
      "loss/hidden": 4.191796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30611949125304816,
      "step": 3720
    },
    {
      "epoch": 0.12433333333333334,
      "grad_norm": 31.75,
      "grad_norm_var": 43.416666666666664,
      "learning_rate": 0.0001,
      "loss": 9.1562,
      "loss/crossentropy": 2.1152502104640005,
      "loss/hidden": 4.129296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28165129497647284,
      "step": 3730
    },
    {
      "epoch": 0.12466666666666666,
      "grad_norm": 38.5,
      "grad_norm_var": 33.608333333333334,
      "learning_rate": 0.0001,
      "loss": 9.3006,
      "loss/crossentropy": 2.320794602483511,
      "loss/hidden": 4.10390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2863430541008711,
      "step": 3740
    },
    {
      "epoch": 0.125,
      "grad_norm": 34.5,
      "grad_norm_var": 6.52890625,
      "learning_rate": 0.0001,
      "loss": 9.275,
      "loss/crossentropy": 2.0785109654068945,
      "loss/hidden": 4.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3000879239290953,
      "step": 3750
    },
    {
      "epoch": 0.12533333333333332,
      "grad_norm": 34.25,
      "grad_norm_var": 22.823958333333334,
      "learning_rate": 0.0001,
      "loss": 9.3243,
      "loss/crossentropy": 2.1262876391410828,
      "loss/hidden": 4.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3010214529931545,
      "step": 3760
    },
    {
      "epoch": 0.12566666666666668,
      "grad_norm": 37.75,
      "grad_norm_var": 21.157291666666666,
      "learning_rate": 0.0001,
      "loss": 9.2353,
      "loss/crossentropy": 2.2993004634976386,
      "loss/hidden": 4.254296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3304103210568428,
      "step": 3770
    },
    {
      "epoch": 0.126,
      "grad_norm": 33.0,
      "grad_norm_var": 8.33515625,
      "learning_rate": 0.0001,
      "loss": 9.2457,
      "loss/crossentropy": 2.1940866082906725,
      "loss/hidden": 4.199609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.294326201826334,
      "step": 3780
    },
    {
      "epoch": 0.12633333333333333,
      "grad_norm": 38.5,
      "grad_norm_var": 135.71015625,
      "learning_rate": 0.0001,
      "loss": 9.2567,
      "loss/crossentropy": 2.13921734392643,
      "loss/hidden": 4.177734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28696890603750946,
      "step": 3790
    },
    {
      "epoch": 0.12666666666666668,
      "grad_norm": 36.0,
      "grad_norm_var": 4.058333333333334,
      "learning_rate": 0.0001,
      "loss": 9.0874,
      "loss/crossentropy": 2.2284460753202437,
      "loss/hidden": 4.209375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3025734366849065,
      "step": 3800
    },
    {
      "epoch": 0.127,
      "grad_norm": 34.5,
      "grad_norm_var": 9.889322916666666,
      "learning_rate": 0.0001,
      "loss": 9.2163,
      "loss/crossentropy": 2.299591761827469,
      "loss/hidden": 4.055859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.296408361941576,
      "step": 3810
    },
    {
      "epoch": 0.12733333333333333,
      "grad_norm": 37.75,
      "grad_norm_var": 11.239322916666667,
      "learning_rate": 0.0001,
      "loss": 9.1761,
      "loss/crossentropy": 2.2842276841402054,
      "loss/hidden": 4.11875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2857844788581133,
      "step": 3820
    },
    {
      "epoch": 0.12766666666666668,
      "grad_norm": 42.0,
      "grad_norm_var": 10.793489583333333,
      "learning_rate": 0.0001,
      "loss": 9.2579,
      "loss/crossentropy": 2.2464538693428038,
      "loss/hidden": 4.245703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2956688392907381,
      "step": 3830
    },
    {
      "epoch": 0.128,
      "grad_norm": 35.0,
      "grad_norm_var": 16.21015625,
      "learning_rate": 0.0001,
      "loss": 9.1472,
      "loss/crossentropy": 2.228955328464508,
      "loss/hidden": 4.26640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30142183881253004,
      "step": 3840
    },
    {
      "epoch": 0.12833333333333333,
      "grad_norm": 41.0,
      "grad_norm_var": 4.840625,
      "learning_rate": 0.0001,
      "loss": 9.2928,
      "loss/crossentropy": 2.223462516069412,
      "loss/hidden": 4.230078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29133280031383035,
      "step": 3850
    },
    {
      "epoch": 0.12866666666666668,
      "grad_norm": 36.5,
      "grad_norm_var": 20.939322916666665,
      "learning_rate": 0.0001,
      "loss": 9.0495,
      "loss/crossentropy": 2.2790828943252563,
      "loss/hidden": 4.126953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2985575716942549,
      "step": 3860
    },
    {
      "epoch": 0.129,
      "grad_norm": 40.25,
      "grad_norm_var": 20.11640625,
      "learning_rate": 0.0001,
      "loss": 9.1951,
      "loss/crossentropy": 2.2769517719745638,
      "loss/hidden": 4.061328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2779423680156469,
      "step": 3870
    },
    {
      "epoch": 0.12933333333333333,
      "grad_norm": 32.0,
      "grad_norm_var": 7.958072916666667,
      "learning_rate": 0.0001,
      "loss": 9.1347,
      "loss/crossentropy": 2.097635033726692,
      "loss/hidden": 4.102734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2780100252479315,
      "step": 3880
    },
    {
      "epoch": 0.12966666666666668,
      "grad_norm": 33.25,
      "grad_norm_var": 8.944205729166667,
      "learning_rate": 0.0001,
      "loss": 9.0803,
      "loss/crossentropy": 2.1658859461545945,
      "loss/hidden": 4.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27850373424589636,
      "step": 3890
    },
    {
      "epoch": 0.13,
      "grad_norm": 33.25,
      "grad_norm_var": 10.558268229166666,
      "learning_rate": 0.0001,
      "loss": 9.167,
      "loss/crossentropy": 2.1380916953086855,
      "loss/hidden": 4.279296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2888460006564856,
      "step": 3900
    },
    {
      "epoch": 0.13033333333333333,
      "grad_norm": 41.75,
      "grad_norm_var": 6.151822916666666,
      "learning_rate": 0.0001,
      "loss": 9.2188,
      "loss/crossentropy": 2.246109126508236,
      "loss/hidden": 4.090234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2838183153420687,
      "step": 3910
    },
    {
      "epoch": 0.13066666666666665,
      "grad_norm": 38.0,
      "grad_norm_var": 3.626822916666667,
      "learning_rate": 0.0001,
      "loss": 9.0951,
      "loss/crossentropy": 1.9172726094722747,
      "loss/hidden": 4.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27877611964941024,
      "step": 3920
    },
    {
      "epoch": 0.131,
      "grad_norm": 36.25,
      "grad_norm_var": 7.6875,
      "learning_rate": 0.0001,
      "loss": 9.123,
      "loss/crossentropy": 2.216602808237076,
      "loss/hidden": 4.17421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29801386743783953,
      "step": 3930
    },
    {
      "epoch": 0.13133333333333333,
      "grad_norm": 37.75,
      "grad_norm_var": 15.170247395833334,
      "learning_rate": 0.0001,
      "loss": 9.0372,
      "loss/crossentropy": 2.0827317383140325,
      "loss/hidden": 4.1515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25494101997464896,
      "step": 3940
    },
    {
      "epoch": 0.13166666666666665,
      "grad_norm": 39.25,
      "grad_norm_var": 16.780143229166665,
      "learning_rate": 0.0001,
      "loss": 9.1713,
      "loss/crossentropy": 2.0472889255732296,
      "loss/hidden": 4.125390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2605790663510561,
      "step": 3950
    },
    {
      "epoch": 0.132,
      "grad_norm": 35.0,
      "grad_norm_var": 24.373958333333334,
      "learning_rate": 0.0001,
      "loss": 9.1236,
      "loss/crossentropy": 2.2061238437891006,
      "loss/hidden": 4.06953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27440296970307826,
      "step": 3960
    },
    {
      "epoch": 0.13233333333333333,
      "grad_norm": 37.75,
      "grad_norm_var": 17.36015625,
      "learning_rate": 0.0001,
      "loss": 9.0615,
      "loss/crossentropy": 2.067065991461277,
      "loss/hidden": 4.19609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2724686389788985,
      "step": 3970
    },
    {
      "epoch": 0.13266666666666665,
      "grad_norm": 35.5,
      "grad_norm_var": 13.895833333333334,
      "learning_rate": 0.0001,
      "loss": 9.2604,
      "loss/crossentropy": 2.3754075884819033,
      "loss/hidden": 4.234765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3084482606500387,
      "step": 3980
    },
    {
      "epoch": 0.133,
      "grad_norm": 36.5,
      "grad_norm_var": 15.72265625,
      "learning_rate": 0.0001,
      "loss": 9.0579,
      "loss/crossentropy": 2.0445886969566347,
      "loss/hidden": 4.1140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28532980997115376,
      "step": 3990
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 38.0,
      "grad_norm_var": 4.351822916666666,
      "learning_rate": 0.0001,
      "loss": 8.9463,
      "loss/crossentropy": 2.154660718142986,
      "loss/hidden": 4.159375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29097947776317595,
      "step": 4000
    },
    {
      "epoch": 0.13366666666666666,
      "grad_norm": 39.25,
      "grad_norm_var": 10.275,
      "learning_rate": 0.0001,
      "loss": 9.1226,
      "loss/crossentropy": 2.0323362797498703,
      "loss/hidden": 4.0609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25012299232184887,
      "step": 4010
    },
    {
      "epoch": 0.134,
      "grad_norm": 35.75,
      "grad_norm_var": 5.273958333333334,
      "learning_rate": 0.0001,
      "loss": 9.2453,
      "loss/crossentropy": 2.1468474209308623,
      "loss/hidden": 4.19765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2808349967002869,
      "step": 4020
    },
    {
      "epoch": 0.13433333333333333,
      "grad_norm": 32.0,
      "grad_norm_var": 21.4875,
      "learning_rate": 0.0001,
      "loss": 9.227,
      "loss/crossentropy": 2.1914032608270646,
      "loss/hidden": 4.169140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2951745491474867,
      "step": 4030
    },
    {
      "epoch": 0.13466666666666666,
      "grad_norm": 38.25,
      "grad_norm_var": 15.52265625,
      "learning_rate": 0.0001,
      "loss": 9.1906,
      "loss/crossentropy": 2.374897816777229,
      "loss/hidden": 4.23515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29634634144604205,
      "step": 4040
    },
    {
      "epoch": 0.135,
      "grad_norm": 38.5,
      "grad_norm_var": 8.176822916666667,
      "learning_rate": 0.0001,
      "loss": 9.2041,
      "loss/crossentropy": 2.213481293618679,
      "loss/hidden": 4.249609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30703250467777254,
      "step": 4050
    },
    {
      "epoch": 0.13533333333333333,
      "grad_norm": 199.0,
      "grad_norm_var": 1616.4239583333333,
      "learning_rate": 0.0001,
      "loss": 9.4101,
      "loss/crossentropy": 2.3092150717973707,
      "loss/hidden": 4.17890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.298384091258049,
      "step": 4060
    },
    {
      "epoch": 0.13566666666666666,
      "grad_norm": 37.25,
      "grad_norm_var": 1616.6239583333333,
      "learning_rate": 0.0001,
      "loss": 9.3071,
      "loss/crossentropy": 2.219760200381279,
      "loss/hidden": 4.290625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3202596869319677,
      "step": 4070
    },
    {
      "epoch": 0.136,
      "grad_norm": 40.0,
      "grad_norm_var": 9.732291666666667,
      "learning_rate": 0.0001,
      "loss": 9.3305,
      "loss/crossentropy": 2.289233188331127,
      "loss/hidden": 4.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29089505709707736,
      "step": 4080
    },
    {
      "epoch": 0.13633333333333333,
      "grad_norm": 38.0,
      "grad_norm_var": 151.53932291666666,
      "learning_rate": 0.0001,
      "loss": 9.2719,
      "loss/crossentropy": 2.3422865584492683,
      "loss/hidden": 4.199609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2982410844415426,
      "step": 4090
    },
    {
      "epoch": 0.13666666666666666,
      "grad_norm": 34.5,
      "grad_norm_var": 8.22265625,
      "learning_rate": 0.0001,
      "loss": 9.154,
      "loss/crossentropy": 2.0941394165158274,
      "loss/hidden": 4.131640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28526539970189335,
      "step": 4100
    },
    {
      "epoch": 0.137,
      "grad_norm": 42.5,
      "grad_norm_var": 13.489322916666667,
      "learning_rate": 0.0001,
      "loss": 9.2834,
      "loss/crossentropy": 2.336969590187073,
      "loss/hidden": 4.314453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3301690086722374,
      "step": 4110
    },
    {
      "epoch": 0.13733333333333334,
      "grad_norm": 38.75,
      "grad_norm_var": 75.96640625,
      "learning_rate": 0.0001,
      "loss": 9.2545,
      "loss/crossentropy": 2.354858273267746,
      "loss/hidden": 4.16953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31785392127931117,
      "step": 4120
    },
    {
      "epoch": 0.13766666666666666,
      "grad_norm": 32.25,
      "grad_norm_var": 74.625,
      "learning_rate": 0.0001,
      "loss": 9.017,
      "loss/crossentropy": 2.242242157459259,
      "loss/hidden": 4.15703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27648379243910315,
      "step": 4130
    },
    {
      "epoch": 0.138,
      "grad_norm": 38.25,
      "grad_norm_var": 12.843489583333334,
      "learning_rate": 0.0001,
      "loss": 9.2173,
      "loss/crossentropy": 2.240199755132198,
      "loss/hidden": 4.201953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2927041232585907,
      "step": 4140
    },
    {
      "epoch": 0.13833333333333334,
      "grad_norm": 33.75,
      "grad_norm_var": 25.674739583333334,
      "learning_rate": 0.0001,
      "loss": 9.1547,
      "loss/crossentropy": 2.1676330864429474,
      "loss/hidden": 4.211328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2752385437488556,
      "step": 4150
    },
    {
      "epoch": 0.13866666666666666,
      "grad_norm": 36.5,
      "grad_norm_var": 4.523958333333334,
      "learning_rate": 0.0001,
      "loss": 9.08,
      "loss/crossentropy": 1.9810823224484921,
      "loss/hidden": 4.034765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2782739015296102,
      "step": 4160
    },
    {
      "epoch": 0.139,
      "grad_norm": 37.75,
      "grad_norm_var": 6.179166666666666,
      "learning_rate": 0.0001,
      "loss": 9.0211,
      "loss/crossentropy": 2.088325909897685,
      "loss/hidden": 4.081640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2718936084304005,
      "step": 4170
    },
    {
      "epoch": 0.13933333333333334,
      "grad_norm": 36.25,
      "grad_norm_var": 4.368489583333333,
      "learning_rate": 0.0001,
      "loss": 9.2223,
      "loss/crossentropy": 2.345874647796154,
      "loss/hidden": 4.141015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29183666668832303,
      "step": 4180
    },
    {
      "epoch": 0.13966666666666666,
      "grad_norm": 35.25,
      "grad_norm_var": 6.133333333333334,
      "learning_rate": 0.0001,
      "loss": 8.9914,
      "loss/crossentropy": 2.076162505149841,
      "loss/hidden": 4.159375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29356912411749364,
      "step": 4190
    },
    {
      "epoch": 0.14,
      "grad_norm": 34.25,
      "grad_norm_var": 6.707291666666666,
      "learning_rate": 0.0001,
      "loss": 8.9754,
      "loss/crossentropy": 2.1641511037945746,
      "loss/hidden": 4.112109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2857985034584999,
      "step": 4200
    },
    {
      "epoch": 0.14033333333333334,
      "grad_norm": 36.75,
      "grad_norm_var": 4.530989583333334,
      "learning_rate": 0.0001,
      "loss": 9.1635,
      "loss/crossentropy": 2.104039117693901,
      "loss/hidden": 4.08671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26876664757728574,
      "step": 4210
    },
    {
      "epoch": 0.14066666666666666,
      "grad_norm": 36.75,
      "grad_norm_var": 4.38515625,
      "learning_rate": 0.0001,
      "loss": 8.998,
      "loss/crossentropy": 2.1638469099998474,
      "loss/hidden": 4.260546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29361540265381336,
      "step": 4220
    },
    {
      "epoch": 0.141,
      "grad_norm": 37.25,
      "grad_norm_var": 2.720572916666667,
      "learning_rate": 0.0001,
      "loss": 9.1357,
      "loss/crossentropy": 2.1269990049302576,
      "loss/hidden": 3.925,
      "loss/jsd": 0.0,
      "loss/logits": 0.24402263071388006,
      "step": 4230
    },
    {
      "epoch": 0.14133333333333334,
      "grad_norm": 38.5,
      "grad_norm_var": 9.082291666666666,
      "learning_rate": 0.0001,
      "loss": 9.0115,
      "loss/crossentropy": 2.08816104978323,
      "loss/hidden": 3.98203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2717157419770956,
      "step": 4240
    },
    {
      "epoch": 0.14166666666666666,
      "grad_norm": 39.75,
      "grad_norm_var": 10.212955729166667,
      "learning_rate": 0.0001,
      "loss": 9.0041,
      "loss/crossentropy": 2.144673664495349,
      "loss/hidden": 4.121875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26794750997796657,
      "step": 4250
    },
    {
      "epoch": 0.142,
      "grad_norm": 39.75,
      "grad_norm_var": 17.005143229166666,
      "learning_rate": 0.0001,
      "loss": 9.0036,
      "loss/crossentropy": 2.198061776161194,
      "loss/hidden": 4.16171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28953395783901215,
      "step": 4260
    },
    {
      "epoch": 0.14233333333333334,
      "grad_norm": 44.0,
      "grad_norm_var": 11.192122395833334,
      "learning_rate": 0.0001,
      "loss": 8.9185,
      "loss/crossentropy": 2.0459933675825597,
      "loss/hidden": 4.1234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26404702849686146,
      "step": 4270
    },
    {
      "epoch": 0.14266666666666666,
      "grad_norm": 34.0,
      "grad_norm_var": 14.708333333333334,
      "learning_rate": 0.0001,
      "loss": 9.0252,
      "loss/crossentropy": 2.142607557028532,
      "loss/hidden": 4.148828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2864328293129802,
      "step": 4280
    },
    {
      "epoch": 0.143,
      "grad_norm": 37.0,
      "grad_norm_var": 1981.7268229166666,
      "learning_rate": 0.0001,
      "loss": 9.2393,
      "loss/crossentropy": 2.346937409043312,
      "loss/hidden": 4.025390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29519574213773014,
      "step": 4290
    },
    {
      "epoch": 0.14333333333333334,
      "grad_norm": 33.75,
      "grad_norm_var": 40.1125,
      "learning_rate": 0.0001,
      "loss": 9.0816,
      "loss/crossentropy": 2.2757950969040395,
      "loss/hidden": 4.086328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2885062342509627,
      "step": 4300
    },
    {
      "epoch": 0.14366666666666666,
      "grad_norm": 36.5,
      "grad_norm_var": 863.840625,
      "learning_rate": 0.0001,
      "loss": 9.1514,
      "loss/crossentropy": 2.225219927728176,
      "loss/hidden": 4.180078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29695004131644964,
      "step": 4310
    },
    {
      "epoch": 0.144,
      "grad_norm": 33.75,
      "grad_norm_var": 886.9458333333333,
      "learning_rate": 0.0001,
      "loss": 8.9425,
      "loss/crossentropy": 2.143592892587185,
      "loss/hidden": 4.075390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.280602141469717,
      "step": 4320
    },
    {
      "epoch": 0.14433333333333334,
      "grad_norm": 36.0,
      "grad_norm_var": 14.0375,
      "learning_rate": 0.0001,
      "loss": 9.0048,
      "loss/crossentropy": 2.196325662732124,
      "loss/hidden": 4.073828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28205970898270605,
      "step": 4330
    },
    {
      "epoch": 0.14466666666666667,
      "grad_norm": 34.0,
      "grad_norm_var": 17.295833333333334,
      "learning_rate": 0.0001,
      "loss": 9.0125,
      "loss/crossentropy": 2.2133986562490464,
      "loss/hidden": 4.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2758210487663746,
      "step": 4340
    },
    {
      "epoch": 0.145,
      "grad_norm": 35.25,
      "grad_norm_var": 17.939322916666665,
      "learning_rate": 0.0001,
      "loss": 8.9665,
      "loss/crossentropy": 2.2748197615146637,
      "loss/hidden": 4.061328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27680257745087145,
      "step": 4350
    },
    {
      "epoch": 0.14533333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 9.857291666666667,
      "learning_rate": 0.0001,
      "loss": 9.0182,
      "loss/crossentropy": 2.108441038429737,
      "loss/hidden": 4.170703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2624512787908316,
      "step": 4360
    },
    {
      "epoch": 0.14566666666666667,
      "grad_norm": 44.25,
      "grad_norm_var": 15.3947265625,
      "learning_rate": 0.0001,
      "loss": 8.9951,
      "loss/crossentropy": 2.038861893117428,
      "loss/hidden": 4.069140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26383627485483885,
      "step": 4370
    },
    {
      "epoch": 0.146,
      "grad_norm": 38.25,
      "grad_norm_var": 14.3884765625,
      "learning_rate": 0.0001,
      "loss": 9.0622,
      "loss/crossentropy": 2.1965081602334977,
      "loss/hidden": 4.124609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29782434441149236,
      "step": 4380
    },
    {
      "epoch": 0.14633333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 127.815625,
      "learning_rate": 0.0001,
      "loss": 9.0006,
      "loss/crossentropy": 2.0395655959844587,
      "loss/hidden": 4.130078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26886530220508575,
      "step": 4390
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 37.0,
      "grad_norm_var": 10.148958333333333,
      "learning_rate": 0.0001,
      "loss": 9.0164,
      "loss/crossentropy": 2.228328402340412,
      "loss/hidden": 4.174609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28383949398994446,
      "step": 4400
    },
    {
      "epoch": 0.147,
      "grad_norm": 38.75,
      "grad_norm_var": 4.183072916666666,
      "learning_rate": 0.0001,
      "loss": 8.9809,
      "loss/crossentropy": 2.1509799271821977,
      "loss/hidden": 4.066015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26196911465376616,
      "step": 4410
    },
    {
      "epoch": 0.14733333333333334,
      "grad_norm": 37.25,
      "grad_norm_var": 5.3353515625,
      "learning_rate": 0.0001,
      "loss": 9.056,
      "loss/crossentropy": 2.217263324558735,
      "loss/hidden": 4.2015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28669508136808874,
      "step": 4420
    },
    {
      "epoch": 0.14766666666666667,
      "grad_norm": 35.5,
      "grad_norm_var": 6.494205729166667,
      "learning_rate": 0.0001,
      "loss": 9.0301,
      "loss/crossentropy": 2.15300203114748,
      "loss/hidden": 4.10703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27612753622233865,
      "step": 4430
    },
    {
      "epoch": 0.148,
      "grad_norm": 35.5,
      "grad_norm_var": 136.375,
      "learning_rate": 0.0001,
      "loss": 9.0967,
      "loss/crossentropy": 2.093575692176819,
      "loss/hidden": 4.1453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29885905496776105,
      "step": 4440
    },
    {
      "epoch": 0.14833333333333334,
      "grad_norm": 39.25,
      "grad_norm_var": 13.1119140625,
      "learning_rate": 0.0001,
      "loss": 9.0634,
      "loss/crossentropy": 2.216056075692177,
      "loss/hidden": 4.144921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30221954099833964,
      "step": 4450
    },
    {
      "epoch": 0.14866666666666667,
      "grad_norm": 33.5,
      "grad_norm_var": 11.009830729166667,
      "learning_rate": 0.0001,
      "loss": 9.2091,
      "loss/crossentropy": 2.2127518743276595,
      "loss/hidden": 4.108984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2779125362634659,
      "step": 4460
    },
    {
      "epoch": 0.149,
      "grad_norm": 39.5,
      "grad_norm_var": 8.137239583333333,
      "learning_rate": 0.0001,
      "loss": 9.086,
      "loss/crossentropy": 2.192157284915447,
      "loss/hidden": 4.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27739516645669937,
      "step": 4470
    },
    {
      "epoch": 0.14933333333333335,
      "grad_norm": 40.0,
      "grad_norm_var": 7.815625,
      "learning_rate": 0.0001,
      "loss": 9.0644,
      "loss/crossentropy": 2.1084683328866958,
      "loss/hidden": 4.044921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26986431013792755,
      "step": 4480
    },
    {
      "epoch": 0.14966666666666667,
      "grad_norm": 35.75,
      "grad_norm_var": 10.302018229166666,
      "learning_rate": 0.0001,
      "loss": 9.0806,
      "loss/crossentropy": 2.0632939770817758,
      "loss/hidden": 4.218359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3002682067453861,
      "step": 4490
    },
    {
      "epoch": 0.15,
      "grad_norm": 39.5,
      "grad_norm_var": 11.279166666666667,
      "learning_rate": 0.0001,
      "loss": 9.1169,
      "loss/crossentropy": 2.2110743284225465,
      "loss/hidden": 4.1859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2930508263409138,
      "step": 4500
    },
    {
      "epoch": 0.15033333333333335,
      "grad_norm": 38.5,
      "grad_norm_var": 10.308072916666667,
      "learning_rate": 0.0001,
      "loss": 9.1674,
      "loss/crossentropy": 2.3797917008399962,
      "loss/hidden": 4.17109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3082386564463377,
      "step": 4510
    },
    {
      "epoch": 0.15066666666666667,
      "grad_norm": 33.75,
      "grad_norm_var": 11.398958333333333,
      "learning_rate": 0.0001,
      "loss": 8.9182,
      "loss/crossentropy": 2.099128992110491,
      "loss/hidden": 4.08125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26461148345842955,
      "step": 4520
    },
    {
      "epoch": 0.151,
      "grad_norm": 30.25,
      "grad_norm_var": 18.073893229166668,
      "learning_rate": 0.0001,
      "loss": 9.0073,
      "loss/crossentropy": 2.121720698475838,
      "loss/hidden": 4.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26439094692468645,
      "step": 4530
    },
    {
      "epoch": 0.15133333333333332,
      "grad_norm": 51.0,
      "grad_norm_var": 40.3994140625,
      "learning_rate": 0.0001,
      "loss": 9.0847,
      "loss/crossentropy": 2.1047763034701346,
      "loss/hidden": 4.223828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30176166333258153,
      "step": 4540
    },
    {
      "epoch": 0.15166666666666667,
      "grad_norm": 40.25,
      "grad_norm_var": 30.270833333333332,
      "learning_rate": 0.0001,
      "loss": 8.9126,
      "loss/crossentropy": 2.112935496866703,
      "loss/hidden": 3.990234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24414603877812624,
      "step": 4550
    },
    {
      "epoch": 0.152,
      "grad_norm": 34.5,
      "grad_norm_var": 9.594205729166667,
      "learning_rate": 0.0001,
      "loss": 8.823,
      "loss/crossentropy": 2.057783196866512,
      "loss/hidden": 4.141796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27383373510092496,
      "step": 4560
    },
    {
      "epoch": 0.15233333333333332,
      "grad_norm": 33.5,
      "grad_norm_var": 7.947330729166667,
      "learning_rate": 0.0001,
      "loss": 8.9423,
      "loss/crossentropy": 2.2479268461465836,
      "loss/hidden": 3.940625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26401854380965234,
      "step": 4570
    },
    {
      "epoch": 0.15266666666666667,
      "grad_norm": 40.25,
      "grad_norm_var": 8.190625,
      "learning_rate": 0.0001,
      "loss": 8.8901,
      "loss/crossentropy": 2.228538802266121,
      "loss/hidden": 4.050390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27664305865764616,
      "step": 4580
    },
    {
      "epoch": 0.153,
      "grad_norm": 32.5,
      "grad_norm_var": 21.790625,
      "learning_rate": 0.0001,
      "loss": 9.0083,
      "loss/crossentropy": 2.119870799779892,
      "loss/hidden": 4.17265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27753249146044257,
      "step": 4590
    },
    {
      "epoch": 0.15333333333333332,
      "grad_norm": 56.5,
      "grad_norm_var": 470.8247395833333,
      "learning_rate": 0.0001,
      "loss": 9.1533,
      "loss/crossentropy": 2.0553093053400517,
      "loss/hidden": 4.362109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3021026611328125,
      "step": 4600
    },
    {
      "epoch": 0.15366666666666667,
      "grad_norm": 41.75,
      "grad_norm_var": 463.7455729166667,
      "learning_rate": 0.0001,
      "loss": 8.9574,
      "loss/crossentropy": 2.0937911093235018,
      "loss/hidden": 4.11953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2679052516818047,
      "step": 4610
    },
    {
      "epoch": 0.154,
      "grad_norm": 35.0,
      "grad_norm_var": 6.95,
      "learning_rate": 0.0001,
      "loss": 9.0725,
      "loss/crossentropy": 2.1097617581486703,
      "loss/hidden": 4.151171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3005022447556257,
      "step": 4620
    },
    {
      "epoch": 0.15433333333333332,
      "grad_norm": 34.0,
      "grad_norm_var": 6.76875,
      "learning_rate": 0.0001,
      "loss": 8.8903,
      "loss/crossentropy": 2.187983478605747,
      "loss/hidden": 4.08125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26959136240184306,
      "step": 4630
    },
    {
      "epoch": 0.15466666666666667,
      "grad_norm": 36.75,
      "grad_norm_var": 6.955143229166667,
      "learning_rate": 0.0001,
      "loss": 8.9611,
      "loss/crossentropy": 2.096404644846916,
      "loss/hidden": 4.02265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2623141951858997,
      "step": 4640
    },
    {
      "epoch": 0.155,
      "grad_norm": 33.75,
      "grad_norm_var": 8.134309895833333,
      "learning_rate": 0.0001,
      "loss": 8.8924,
      "loss/crossentropy": 1.9974856853485108,
      "loss/hidden": 4.131640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27121835108846426,
      "step": 4650
    },
    {
      "epoch": 0.15533333333333332,
      "grad_norm": 36.75,
      "grad_norm_var": 7.055989583333333,
      "learning_rate": 0.0001,
      "loss": 9.1254,
      "loss/crossentropy": 2.255522921681404,
      "loss/hidden": 4.053125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2813701078295708,
      "step": 4660
    },
    {
      "epoch": 0.15566666666666668,
      "grad_norm": 33.5,
      "grad_norm_var": 15.758333333333333,
      "learning_rate": 0.0001,
      "loss": 8.9782,
      "loss/crossentropy": 2.1178917974233626,
      "loss/hidden": 4.116796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27898423206061124,
      "step": 4670
    },
    {
      "epoch": 0.156,
      "grad_norm": 37.25,
      "grad_norm_var": 8.62890625,
      "learning_rate": 0.0001,
      "loss": 8.9927,
      "loss/crossentropy": 2.2914595365524293,
      "loss/hidden": 4.09921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28754087798297406,
      "step": 4680
    },
    {
      "epoch": 0.15633333333333332,
      "grad_norm": 37.5,
      "grad_norm_var": 8.773958333333333,
      "learning_rate": 0.0001,
      "loss": 8.8989,
      "loss/crossentropy": 2.075756361335516,
      "loss/hidden": 4.016015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27427870500832796,
      "step": 4690
    },
    {
      "epoch": 0.15666666666666668,
      "grad_norm": 43.5,
      "grad_norm_var": 41.68307291666667,
      "learning_rate": 0.0001,
      "loss": 9.0313,
      "loss/crossentropy": 2.114923672378063,
      "loss/hidden": 4.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2685729030519724,
      "step": 4700
    },
    {
      "epoch": 0.157,
      "grad_norm": 32.25,
      "grad_norm_var": 23.582291666666666,
      "learning_rate": 0.0001,
      "loss": 8.9486,
      "loss/crossentropy": 2.1114466533064844,
      "loss/hidden": 4.230859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28084823917597534,
      "step": 4710
    },
    {
      "epoch": 0.15733333333333333,
      "grad_norm": 40.0,
      "grad_norm_var": 17.48515625,
      "learning_rate": 0.0001,
      "loss": 8.993,
      "loss/crossentropy": 2.1299724817276,
      "loss/hidden": 4.07265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2675957553088665,
      "step": 4720
    },
    {
      "epoch": 0.15766666666666668,
      "grad_norm": 45.75,
      "grad_norm_var": 16.35,
      "learning_rate": 0.0001,
      "loss": 8.9449,
      "loss/crossentropy": 2.253695184737444,
      "loss/hidden": 4.016796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2566886018961668,
      "step": 4730
    },
    {
      "epoch": 0.158,
      "grad_norm": 35.5,
      "grad_norm_var": 25.812239583333334,
      "learning_rate": 0.0001,
      "loss": 9.1158,
      "loss/crossentropy": 2.2754971385002136,
      "loss/hidden": 4.198046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28829921074211595,
      "step": 4740
    },
    {
      "epoch": 0.15833333333333333,
      "grad_norm": 40.0,
      "grad_norm_var": 44.77682291666667,
      "learning_rate": 0.0001,
      "loss": 8.8164,
      "loss/crossentropy": 2.0852062880992888,
      "loss/hidden": 4.101171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2623613655567169,
      "step": 4750
    },
    {
      "epoch": 0.15866666666666668,
      "grad_norm": 34.25,
      "grad_norm_var": 18.587239583333332,
      "learning_rate": 0.0001,
      "loss": 8.8431,
      "loss/crossentropy": 2.2237706407904625,
      "loss/hidden": 4.155078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3078520778566599,
      "step": 4760
    },
    {
      "epoch": 0.159,
      "grad_norm": 39.5,
      "grad_norm_var": 10.715625,
      "learning_rate": 0.0001,
      "loss": 8.8808,
      "loss/crossentropy": 2.139245317876339,
      "loss/hidden": 4.1,
      "loss/jsd": 0.0,
      "loss/logits": 0.2770055137574673,
      "step": 4770
    },
    {
      "epoch": 0.15933333333333333,
      "grad_norm": 38.5,
      "grad_norm_var": 11.529166666666667,
      "learning_rate": 0.0001,
      "loss": 9.0282,
      "loss/crossentropy": 2.153920599073172,
      "loss/hidden": 4.14765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2666714245453477,
      "step": 4780
    },
    {
      "epoch": 0.15966666666666668,
      "grad_norm": 37.25,
      "grad_norm_var": 3.2831240942886323e+18,
      "learning_rate": 0.0001,
      "loss": 9.2047,
      "loss/crossentropy": 2.181428015232086,
      "loss/hidden": 4.17421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2813129939138889,
      "step": 4790
    },
    {
      "epoch": 0.16,
      "grad_norm": 33.75,
      "grad_norm_var": 6.765625,
      "learning_rate": 0.0001,
      "loss": 9.0916,
      "loss/crossentropy": 2.148864021897316,
      "loss/hidden": 4.162890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28246700279414655,
      "step": 4800
    },
    {
      "epoch": 0.16033333333333333,
      "grad_norm": 32.0,
      "grad_norm_var": 5.557291666666667,
      "learning_rate": 0.0001,
      "loss": 8.7833,
      "loss/crossentropy": 2.20737906396389,
      "loss/hidden": 4.041796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27596224322915075,
      "step": 4810
    },
    {
      "epoch": 0.16066666666666668,
      "grad_norm": 35.0,
      "grad_norm_var": 5.990625,
      "learning_rate": 0.0001,
      "loss": 8.9472,
      "loss/crossentropy": 2.0124839752912522,
      "loss/hidden": 4.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2861068371683359,
      "step": 4820
    },
    {
      "epoch": 0.161,
      "grad_norm": 33.25,
      "grad_norm_var": 7.820247395833333,
      "learning_rate": 0.0001,
      "loss": 8.9053,
      "loss/crossentropy": 2.158030679821968,
      "loss/hidden": 3.937109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26078329905867575,
      "step": 4830
    },
    {
      "epoch": 0.16133333333333333,
      "grad_norm": 34.5,
      "grad_norm_var": 10.298372395833333,
      "learning_rate": 0.0001,
      "loss": 8.9212,
      "loss/crossentropy": 2.046878896653652,
      "loss/hidden": 4.169921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.277280671428889,
      "step": 4840
    },
    {
      "epoch": 0.16166666666666665,
      "grad_norm": 36.0,
      "grad_norm_var": 8.980989583333333,
      "learning_rate": 0.0001,
      "loss": 8.8992,
      "loss/crossentropy": 2.2036330491304397,
      "loss/hidden": 3.940625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25981649905443194,
      "step": 4850
    },
    {
      "epoch": 0.162,
      "grad_norm": 37.5,
      "grad_norm_var": 6.245833333333334,
      "learning_rate": 0.0001,
      "loss": 8.8779,
      "loss/crossentropy": 2.001459051668644,
      "loss/hidden": 4.107421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2751261981204152,
      "step": 4860
    },
    {
      "epoch": 0.16233333333333333,
      "grad_norm": 34.0,
      "grad_norm_var": 24.165625,
      "learning_rate": 0.0001,
      "loss": 9.0285,
      "loss/crossentropy": 2.236599923670292,
      "loss/hidden": 3.955078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2600332200527191,
      "step": 4870
    },
    {
      "epoch": 0.16266666666666665,
      "grad_norm": 37.0,
      "grad_norm_var": 6.662239583333333,
      "learning_rate": 0.0001,
      "loss": 8.9864,
      "loss/crossentropy": 2.0701673187315466,
      "loss/hidden": 4.109765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27043242640793325,
      "step": 4880
    },
    {
      "epoch": 0.163,
      "grad_norm": 58.0,
      "grad_norm_var": 1.8014398247254098e+18,
      "learning_rate": 0.0001,
      "loss": 8.9593,
      "loss/crossentropy": 2.128389702364802,
      "loss/hidden": 3.9984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2562539763748646,
      "step": 4890
    },
    {
      "epoch": 0.16333333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 1.801439823002949e+18,
      "learning_rate": 0.0001,
      "loss": 9.0252,
      "loss/crossentropy": 2.0912427961826325,
      "loss/hidden": 4.151171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2807155104354024,
      "step": 4900
    },
    {
      "epoch": 0.16366666666666665,
      "grad_norm": 41.25,
      "grad_norm_var": 27.223958333333332,
      "learning_rate": 0.0001,
      "loss": 8.7847,
      "loss/crossentropy": 1.889319808036089,
      "loss/hidden": 4.073046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2481829353608191,
      "step": 4910
    },
    {
      "epoch": 0.164,
      "grad_norm": 32.75,
      "grad_norm_var": 7.939322916666667,
      "learning_rate": 0.0001,
      "loss": 8.744,
      "loss/crossentropy": 2.2621133089065553,
      "loss/hidden": 4.037109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2557232953608036,
      "step": 4920
    },
    {
      "epoch": 0.16433333333333333,
      "grad_norm": 35.75,
      "grad_norm_var": 7.367122395833333,
      "learning_rate": 0.0001,
      "loss": 8.9305,
      "loss/crossentropy": 2.1436791688203813,
      "loss/hidden": 4.185546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28117387779057024,
      "step": 4930
    },
    {
      "epoch": 0.16466666666666666,
      "grad_norm": 34.0,
      "grad_norm_var": 6.180989583333333,
      "learning_rate": 0.0001,
      "loss": 8.8538,
      "loss/crossentropy": 2.124467818439007,
      "loss/hidden": 4.153125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27935762144625187,
      "step": 4940
    },
    {
      "epoch": 0.165,
      "grad_norm": 34.5,
      "grad_norm_var": 3.9208333333333334,
      "learning_rate": 0.0001,
      "loss": 9.0238,
      "loss/crossentropy": 2.1031661182641983,
      "loss/hidden": 4.13359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2820569805800915,
      "step": 4950
    },
    {
      "epoch": 0.16533333333333333,
      "grad_norm": 36.75,
      "grad_norm_var": 7.434309895833334,
      "learning_rate": 0.0001,
      "loss": 8.9877,
      "loss/crossentropy": 2.1274607971310617,
      "loss/hidden": 4.0453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25978016797453163,
      "step": 4960
    },
    {
      "epoch": 0.16566666666666666,
      "grad_norm": 35.75,
      "grad_norm_var": 9.023372395833333,
      "learning_rate": 0.0001,
      "loss": 8.9786,
      "loss/crossentropy": 2.265768840909004,
      "loss/hidden": 3.933984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2593372922390699,
      "step": 4970
    },
    {
      "epoch": 0.166,
      "grad_norm": 35.25,
      "grad_norm_var": 2.4580729166666666,
      "learning_rate": 0.0001,
      "loss": 8.9312,
      "loss/crossentropy": 2.077937413752079,
      "loss/hidden": 4.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27119250893592833,
      "step": 4980
    },
    {
      "epoch": 0.16633333333333333,
      "grad_norm": 34.25,
      "grad_norm_var": 300.88743489583334,
      "learning_rate": 0.0001,
      "loss": 8.8076,
      "loss/crossentropy": 2.2653584659099577,
      "loss/hidden": 4.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27666972354054453,
      "step": 4990
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 35.25,
      "grad_norm_var": 6.1087890625,
      "learning_rate": 0.0001,
      "loss": 8.9492,
      "loss/crossentropy": 2.1622142292559148,
      "loss/hidden": 4.054296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2614580035209656,
      "step": 5000
    },
    {
      "epoch": 0.167,
      "grad_norm": 36.5,
      "grad_norm_var": 6.083072916666667,
      "learning_rate": 0.0001,
      "loss": 8.8944,
      "loss/crossentropy": 2.125202904641628,
      "loss/hidden": 4.095703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27341773808002473,
      "step": 5010
    },
    {
      "epoch": 0.16733333333333333,
      "grad_norm": 35.25,
      "grad_norm_var": 12.689322916666667,
      "learning_rate": 0.0001,
      "loss": 9.0034,
      "loss/crossentropy": 2.2574457243084907,
      "loss/hidden": 4.0109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27399955950677396,
      "step": 5020
    },
    {
      "epoch": 0.16766666666666666,
      "grad_norm": 42.0,
      "grad_norm_var": 12.624739583333334,
      "learning_rate": 0.0001,
      "loss": 9.0668,
      "loss/crossentropy": 2.0945447117090223,
      "loss/hidden": 4.031640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27295216396450994,
      "step": 5030
    },
    {
      "epoch": 0.168,
      "grad_norm": 35.0,
      "grad_norm_var": 20.599739583333335,
      "learning_rate": 0.0001,
      "loss": 8.9586,
      "loss/crossentropy": 2.2430111899971963,
      "loss/hidden": 4.026953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27031025942415,
      "step": 5040
    },
    {
      "epoch": 0.16833333333333333,
      "grad_norm": 36.5,
      "grad_norm_var": 17.99765625,
      "learning_rate": 0.0001,
      "loss": 9.1637,
      "loss/crossentropy": 2.1593209132552147,
      "loss/hidden": 4.162109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2839784752577543,
      "step": 5050
    },
    {
      "epoch": 0.16866666666666666,
      "grad_norm": 32.25,
      "grad_norm_var": 9.022330729166667,
      "learning_rate": 0.0001,
      "loss": 8.8245,
      "loss/crossentropy": 2.1471748799085617,
      "loss/hidden": 4.0046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26835247687995434,
      "step": 5060
    },
    {
      "epoch": 0.169,
      "grad_norm": 36.5,
      "grad_norm_var": 87.60390625,
      "learning_rate": 0.0001,
      "loss": 8.8161,
      "loss/crossentropy": 2.0496731594204904,
      "loss/hidden": 4.125390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2703436575829983,
      "step": 5070
    },
    {
      "epoch": 0.16933333333333334,
      "grad_norm": 34.5,
      "grad_norm_var": 100.34557291666667,
      "learning_rate": 0.0001,
      "loss": 9.0138,
      "loss/crossentropy": 2.1915629282593727,
      "loss/hidden": 4.15546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2765682227909565,
      "step": 5080
    },
    {
      "epoch": 0.16966666666666666,
      "grad_norm": 37.0,
      "grad_norm_var": 3.41640625,
      "learning_rate": 0.0001,
      "loss": 8.9229,
      "loss/crossentropy": 2.257983461022377,
      "loss/hidden": 4.04921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.262128459662199,
      "step": 5090
    },
    {
      "epoch": 0.17,
      "grad_norm": 35.75,
      "grad_norm_var": 15.81640625,
      "learning_rate": 0.0001,
      "loss": 8.8926,
      "loss/crossentropy": 2.187410834431648,
      "loss/hidden": 4.071484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2799120504409075,
      "step": 5100
    },
    {
      "epoch": 0.17033333333333334,
      "grad_norm": 35.75,
      "grad_norm_var": 5.523958333333334,
      "learning_rate": 0.0001,
      "loss": 8.8704,
      "loss/crossentropy": 2.0666673690080644,
      "loss/hidden": 4.118359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2736505573615432,
      "step": 5110
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 36.75,
      "grad_norm_var": 16.540625,
      "learning_rate": 0.0001,
      "loss": 8.784,
      "loss/crossentropy": 2.055477923154831,
      "loss/hidden": 4.126953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27156198769807816,
      "step": 5120
    },
    {
      "epoch": 0.171,
      "grad_norm": 41.75,
      "grad_norm_var": 20.34765625,
      "learning_rate": 0.0001,
      "loss": 8.9327,
      "loss/crossentropy": 2.037408724427223,
      "loss/hidden": 4.025390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2697664858773351,
      "step": 5130
    },
    {
      "epoch": 0.17133333333333334,
      "grad_norm": 36.75,
      "grad_norm_var": 17.532747395833333,
      "learning_rate": 0.0001,
      "loss": 8.8144,
      "loss/crossentropy": 2.1504238069057466,
      "loss/hidden": 3.99453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2602078752592206,
      "step": 5140
    },
    {
      "epoch": 0.17166666666666666,
      "grad_norm": 50.25,
      "grad_norm_var": 22.230989583333333,
      "learning_rate": 0.0001,
      "loss": 8.7907,
      "loss/crossentropy": 2.0753002099692823,
      "loss/hidden": 3.951953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24998050797730684,
      "step": 5150
    },
    {
      "epoch": 0.172,
      "grad_norm": 33.5,
      "grad_norm_var": 18.791666666666668,
      "learning_rate": 0.0001,
      "loss": 8.8137,
      "loss/crossentropy": 2.179745650291443,
      "loss/hidden": 3.980078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.259993402659893,
      "step": 5160
    },
    {
      "epoch": 0.17233333333333334,
      "grad_norm": 33.25,
      "grad_norm_var": 6.505989583333333,
      "learning_rate": 0.0001,
      "loss": 8.8,
      "loss/crossentropy": 2.090472859144211,
      "loss/hidden": 3.967578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26382889300584794,
      "step": 5170
    },
    {
      "epoch": 0.17266666666666666,
      "grad_norm": 32.75,
      "grad_norm_var": 9.782291666666667,
      "learning_rate": 0.0001,
      "loss": 8.8922,
      "loss/crossentropy": 2.0885345190763474,
      "loss/hidden": 4.10078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2721933271735907,
      "step": 5180
    },
    {
      "epoch": 0.173,
      "grad_norm": 33.25,
      "grad_norm_var": 12.4244140625,
      "learning_rate": 0.0001,
      "loss": 8.9584,
      "loss/crossentropy": 2.141716684401035,
      "loss/hidden": 4.02578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2675710514187813,
      "step": 5190
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 9.2931640625,
      "learning_rate": 0.0001,
      "loss": 8.9231,
      "loss/crossentropy": 2.0917196184396745,
      "loss/hidden": 4.080859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29290595967322586,
      "step": 5200
    },
    {
      "epoch": 0.17366666666666666,
      "grad_norm": 48.25,
      "grad_norm_var": 11236.739322916666,
      "learning_rate": 0.0001,
      "loss": 9.1762,
      "loss/crossentropy": 2.257916547358036,
      "loss/hidden": 4.270703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3100666496902704,
      "step": 5210
    },
    {
      "epoch": 0.174,
      "grad_norm": 43.0,
      "grad_norm_var": 11218.0125,
      "learning_rate": 0.0001,
      "loss": 9.0758,
      "loss/crossentropy": 2.14205886721611,
      "loss/hidden": 4.219140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3077359441667795,
      "step": 5220
    },
    {
      "epoch": 0.17433333333333334,
      "grad_norm": 35.75,
      "grad_norm_var": 17.448958333333334,
      "learning_rate": 0.0001,
      "loss": 8.8649,
      "loss/crossentropy": 2.228261913359165,
      "loss/hidden": 4.16484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31307811439037325,
      "step": 5230
    },
    {
      "epoch": 0.17466666666666666,
      "grad_norm": 37.75,
      "grad_norm_var": 10.398958333333333,
      "learning_rate": 0.0001,
      "loss": 8.8652,
      "loss/crossentropy": 2.1450634144246576,
      "loss/hidden": 4.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28023948706686497,
      "step": 5240
    },
    {
      "epoch": 0.175,
      "grad_norm": 35.0,
      "grad_norm_var": 9.215559895833334,
      "learning_rate": 0.0001,
      "loss": 8.8716,
      "loss/crossentropy": 2.114921988546848,
      "loss/hidden": 4.04375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27058052010834216,
      "step": 5250
    },
    {
      "epoch": 0.17533333333333334,
      "grad_norm": 33.25,
      "grad_norm_var": 7.984309895833333,
      "learning_rate": 0.0001,
      "loss": 8.9649,
      "loss/crossentropy": 2.2500276297330855,
      "loss/hidden": 3.951171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2647197004407644,
      "step": 5260
    },
    {
      "epoch": 0.17566666666666667,
      "grad_norm": 33.75,
      "grad_norm_var": 5.643489583333333,
      "learning_rate": 0.0001,
      "loss": 8.7341,
      "loss/crossentropy": 2.175753255933523,
      "loss/hidden": 4.11171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27517074095085264,
      "step": 5270
    },
    {
      "epoch": 0.176,
      "grad_norm": 36.0,
      "grad_norm_var": 10.556184895833333,
      "learning_rate": 0.0001,
      "loss": 8.9871,
      "loss/crossentropy": 2.175162176787853,
      "loss/hidden": 4.271484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3377554725855589,
      "step": 5280
    },
    {
      "epoch": 0.17633333333333334,
      "grad_norm": 34.5,
      "grad_norm_var": 10.546809895833333,
      "learning_rate": 0.0001,
      "loss": 8.922,
      "loss/crossentropy": 2.143188028782606,
      "loss/hidden": 4.023828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2618455559015274,
      "step": 5290
    },
    {
      "epoch": 0.17666666666666667,
      "grad_norm": 31.625,
      "grad_norm_var": 19.506705729166665,
      "learning_rate": 0.0001,
      "loss": 8.7904,
      "loss/crossentropy": 2.0671297401189803,
      "loss/hidden": 4.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25971175618469716,
      "step": 5300
    },
    {
      "epoch": 0.177,
      "grad_norm": 42.75,
      "grad_norm_var": 15.354622395833333,
      "learning_rate": 0.0001,
      "loss": 8.9056,
      "loss/crossentropy": 2.221310918033123,
      "loss/hidden": 4.06796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.278064251691103,
      "step": 5310
    },
    {
      "epoch": 0.17733333333333334,
      "grad_norm": 33.5,
      "grad_norm_var": 9.375,
      "learning_rate": 0.0001,
      "loss": 8.7992,
      "loss/crossentropy": 2.0719747349619864,
      "loss/hidden": 4.105859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2616250865161419,
      "step": 5320
    },
    {
      "epoch": 0.17766666666666667,
      "grad_norm": 32.0,
      "grad_norm_var": 5.623958333333333,
      "learning_rate": 0.0001,
      "loss": 8.7475,
      "loss/crossentropy": 2.0968958541750906,
      "loss/hidden": 4.021484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2842200789600611,
      "step": 5330
    },
    {
      "epoch": 0.178,
      "grad_norm": 38.5,
      "grad_norm_var": 7.82265625,
      "learning_rate": 0.0001,
      "loss": 8.8437,
      "loss/crossentropy": 2.1536238461732866,
      "loss/hidden": 3.87421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24708390831947327,
      "step": 5340
    },
    {
      "epoch": 0.17833333333333334,
      "grad_norm": 30.875,
      "grad_norm_var": 11.901497395833333,
      "learning_rate": 0.0001,
      "loss": 8.7492,
      "loss/crossentropy": 2.1353225603699686,
      "loss/hidden": 3.94453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2444358326494694,
      "step": 5350
    },
    {
      "epoch": 0.17866666666666667,
      "grad_norm": 34.25,
      "grad_norm_var": 21.014518229166665,
      "learning_rate": 0.0001,
      "loss": 8.9323,
      "loss/crossentropy": 2.148284465074539,
      "loss/hidden": 4.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2887397948652506,
      "step": 5360
    },
    {
      "epoch": 0.179,
      "grad_norm": 35.5,
      "grad_norm_var": 7.264518229166667,
      "learning_rate": 0.0001,
      "loss": 8.7864,
      "loss/crossentropy": 1.94754306524992,
      "loss/hidden": 4.208984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2864205963909626,
      "step": 5370
    },
    {
      "epoch": 0.17933333333333334,
      "grad_norm": 32.75,
      "grad_norm_var": 17.825455729166666,
      "learning_rate": 0.0001,
      "loss": 8.7709,
      "loss/crossentropy": 2.111784017086029,
      "loss/hidden": 4.049609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2593661729246378,
      "step": 5380
    },
    {
      "epoch": 0.17966666666666667,
      "grad_norm": 35.25,
      "grad_norm_var": 19.040625,
      "learning_rate": 0.0001,
      "loss": 8.9434,
      "loss/crossentropy": 2.1750704884529113,
      "loss/hidden": 4.074609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27710040137171743,
      "step": 5390
    },
    {
      "epoch": 0.18,
      "grad_norm": 30.375,
      "grad_norm_var": 366.95520833333336,
      "learning_rate": 0.0001,
      "loss": 8.848,
      "loss/crossentropy": 2.1083780497312548,
      "loss/hidden": 3.966015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25344079583883283,
      "step": 5400
    },
    {
      "epoch": 0.18033333333333335,
      "grad_norm": 34.75,
      "grad_norm_var": 379.9759765625,
      "learning_rate": 0.0001,
      "loss": 9.0775,
      "loss/crossentropy": 2.1748669266700746,
      "loss/hidden": 4.206640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32070644982159136,
      "step": 5410
    },
    {
      "epoch": 0.18066666666666667,
      "grad_norm": 43.0,
      "grad_norm_var": 7.449739583333334,
      "learning_rate": 0.0001,
      "loss": 9.0152,
      "loss/crossentropy": 2.113310632109642,
      "loss/hidden": 4.053125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25953211821615696,
      "step": 5420
    },
    {
      "epoch": 0.181,
      "grad_norm": 34.5,
      "grad_norm_var": 11.134375,
      "learning_rate": 0.0001,
      "loss": 8.7841,
      "loss/crossentropy": 2.132595753669739,
      "loss/hidden": 3.9265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2528179976157844,
      "step": 5430
    },
    {
      "epoch": 0.18133333333333335,
      "grad_norm": 33.5,
      "grad_norm_var": 3.84765625,
      "learning_rate": 0.0001,
      "loss": 8.8766,
      "loss/crossentropy": 2.1760675475001334,
      "loss/hidden": 4.0890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2604052824899554,
      "step": 5440
    },
    {
      "epoch": 0.18166666666666667,
      "grad_norm": 33.75,
      "grad_norm_var": 4.217643229166667,
      "learning_rate": 0.0001,
      "loss": 8.9479,
      "loss/crossentropy": 2.10125227868557,
      "loss/hidden": 4.119140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.275428506731987,
      "step": 5450
    },
    {
      "epoch": 0.182,
      "grad_norm": 36.75,
      "grad_norm_var": 3.2603515625,
      "learning_rate": 0.0001,
      "loss": 8.8121,
      "loss/crossentropy": 2.0651059225201607,
      "loss/hidden": 3.9671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26424469240009785,
      "step": 5460
    },
    {
      "epoch": 0.18233333333333332,
      "grad_norm": 41.5,
      "grad_norm_var": 55.25807291666667,
      "learning_rate": 0.0001,
      "loss": 8.9347,
      "loss/crossentropy": 2.1086655259132385,
      "loss/hidden": 4.075,
      "loss/jsd": 0.0,
      "loss/logits": 0.2710310023277998,
      "step": 5470
    },
    {
      "epoch": 0.18266666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 128.47858072916668,
      "learning_rate": 0.0001,
      "loss": 9.0253,
      "loss/crossentropy": 2.069367530941963,
      "loss/hidden": 4.250390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26114317737519743,
      "step": 5480
    },
    {
      "epoch": 0.183,
      "grad_norm": 34.25,
      "grad_norm_var": 97.15670572916666,
      "learning_rate": 0.0001,
      "loss": 8.9139,
      "loss/crossentropy": 2.1907971248030664,
      "loss/hidden": 4.216015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.301979548484087,
      "step": 5490
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 33.0,
      "grad_norm_var": 1.647261910309955e+18,
      "learning_rate": 0.0001,
      "loss": 8.9109,
      "loss/crossentropy": 2.268464684486389,
      "loss/hidden": 4.323828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3525669999420643,
      "step": 5500
    },
    {
      "epoch": 0.18366666666666667,
      "grad_norm": 32.0,
      "grad_norm_var": 1.6472619102618255e+18,
      "learning_rate": 0.0001,
      "loss": 8.7968,
      "loss/crossentropy": 2.2150946646928786,
      "loss/hidden": 3.966015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25991535745561123,
      "step": 5510
    },
    {
      "epoch": 0.184,
      "grad_norm": 46.0,
      "grad_norm_var": 40.7556640625,
      "learning_rate": 0.0001,
      "loss": 8.8022,
      "loss/crossentropy": 1.9760248348116876,
      "loss/hidden": 3.994140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26316012144088746,
      "step": 5520
    },
    {
      "epoch": 0.18433333333333332,
      "grad_norm": 33.25,
      "grad_norm_var": 38.213541666666664,
      "learning_rate": 0.0001,
      "loss": 8.9662,
      "loss/crossentropy": 2.1715099826455115,
      "loss/hidden": 4.0765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2730803471058607,
      "step": 5530
    },
    {
      "epoch": 0.18466666666666667,
      "grad_norm": 37.0,
      "grad_norm_var": 16.27265625,
      "learning_rate": 0.0001,
      "loss": 8.8223,
      "loss/crossentropy": 2.039857251942158,
      "loss/hidden": 3.984765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2515922043472528,
      "step": 5540
    },
    {
      "epoch": 0.185,
      "grad_norm": 35.25,
      "grad_norm_var": 25.537239583333335,
      "learning_rate": 0.0001,
      "loss": 8.9861,
      "loss/crossentropy": 2.2859031215310095,
      "loss/hidden": 4.180078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29738733656704425,
      "step": 5550
    },
    {
      "epoch": 0.18533333333333332,
      "grad_norm": 36.75,
      "grad_norm_var": 30.639322916666668,
      "learning_rate": 0.0001,
      "loss": 8.6376,
      "loss/crossentropy": 2.193627268075943,
      "loss/hidden": 4.059765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2650878496468067,
      "step": 5560
    },
    {
      "epoch": 0.18566666666666667,
      "grad_norm": 45.5,
      "grad_norm_var": 41.41223958333333,
      "learning_rate": 0.0001,
      "loss": 8.7447,
      "loss/crossentropy": 2.255605274438858,
      "loss/hidden": 4.147265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29602186791598795,
      "step": 5570
    },
    {
      "epoch": 0.186,
      "grad_norm": 33.25,
      "grad_norm_var": 23.320572916666666,
      "learning_rate": 0.0001,
      "loss": 8.7573,
      "loss/crossentropy": 1.9119407512247562,
      "loss/hidden": 4.146484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25584258073940874,
      "step": 5580
    },
    {
      "epoch": 0.18633333333333332,
      "grad_norm": 33.0,
      "grad_norm_var": 12.671875,
      "learning_rate": 0.0001,
      "loss": 8.8568,
      "loss/crossentropy": 2.20727731436491,
      "loss/hidden": 4.006640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2666482891887426,
      "step": 5590
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 34.5,
      "grad_norm_var": 17.099739583333335,
      "learning_rate": 0.0001,
      "loss": 8.7688,
      "loss/crossentropy": 2.250939354300499,
      "loss/hidden": 4.031640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27695418410003186,
      "step": 5600
    },
    {
      "epoch": 0.187,
      "grad_norm": 34.25,
      "grad_norm_var": 55.0259765625,
      "learning_rate": 0.0001,
      "loss": 8.7403,
      "loss/crossentropy": 2.123698775470257,
      "loss/hidden": 4.128515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.266297522559762,
      "step": 5610
    },
    {
      "epoch": 0.18733333333333332,
      "grad_norm": 37.5,
      "grad_norm_var": 9.993684895833333,
      "learning_rate": 0.0001,
      "loss": 8.7692,
      "loss/crossentropy": 1.985411663353443,
      "loss/hidden": 4.025390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24248458091169595,
      "step": 5620
    },
    {
      "epoch": 0.18766666666666668,
      "grad_norm": 33.25,
      "grad_norm_var": 9.817122395833334,
      "learning_rate": 0.0001,
      "loss": 8.8696,
      "loss/crossentropy": 2.1818307891488073,
      "loss/hidden": 4.0328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26730893813073636,
      "step": 5630
    },
    {
      "epoch": 0.188,
      "grad_norm": 34.75,
      "grad_norm_var": 2.0837890625,
      "learning_rate": 0.0001,
      "loss": 8.6818,
      "loss/crossentropy": 1.9562100693583488,
      "loss/hidden": 3.86953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2361563365906477,
      "step": 5640
    },
    {
      "epoch": 0.18833333333333332,
      "grad_norm": 35.0,
      "grad_norm_var": 8.556705729166667,
      "learning_rate": 0.0001,
      "loss": 8.7822,
      "loss/crossentropy": 2.2117529645562173,
      "loss/hidden": 4.125390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27936047930270436,
      "step": 5650
    },
    {
      "epoch": 0.18866666666666668,
      "grad_norm": 37.0,
      "grad_norm_var": 18.499934895833334,
      "learning_rate": 0.0001,
      "loss": 8.8269,
      "loss/crossentropy": 2.1983281478285788,
      "loss/hidden": 4.016015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27177377715706824,
      "step": 5660
    },
    {
      "epoch": 0.189,
      "grad_norm": 33.5,
      "grad_norm_var": 53.44348958333333,
      "learning_rate": 0.0001,
      "loss": 8.9078,
      "loss/crossentropy": 2.1987064227461817,
      "loss/hidden": 4.033984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2688568111509085,
      "step": 5670
    },
    {
      "epoch": 0.18933333333333333,
      "grad_norm": 39.5,
      "grad_norm_var": 79.27682291666666,
      "learning_rate": 0.0001,
      "loss": 8.9224,
      "loss/crossentropy": 2.0661555171012878,
      "loss/hidden": 4.004296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26280424017459153,
      "step": 5680
    },
    {
      "epoch": 0.18966666666666668,
      "grad_norm": 34.5,
      "grad_norm_var": 76.48515625,
      "learning_rate": 0.0001,
      "loss": 8.8074,
      "loss/crossentropy": 2.2006511926651,
      "loss/hidden": 3.94453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2695758603513241,
      "step": 5690
    },
    {
      "epoch": 0.19,
      "grad_norm": 29.625,
      "grad_norm_var": 14.560872395833334,
      "learning_rate": 0.0001,
      "loss": 8.7091,
      "loss/crossentropy": 2.1932696878910063,
      "loss/hidden": 3.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2508305963128805,
      "step": 5700
    },
    {
      "epoch": 0.19033333333333333,
      "grad_norm": 30.125,
      "grad_norm_var": 29.80390625,
      "learning_rate": 0.0001,
      "loss": 8.8264,
      "loss/crossentropy": 1.9624864727258682,
      "loss/hidden": 4.17421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.270268096216023,
      "step": 5710
    },
    {
      "epoch": 0.19066666666666668,
      "grad_norm": 34.5,
      "grad_norm_var": 10.429622395833333,
      "learning_rate": 0.0001,
      "loss": 8.7384,
      "loss/crossentropy": 2.1305344730615614,
      "loss/hidden": 3.949609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25091919098049403,
      "step": 5720
    },
    {
      "epoch": 0.191,
      "grad_norm": 31.125,
      "grad_norm_var": 10.763997395833334,
      "learning_rate": 0.0001,
      "loss": 8.7249,
      "loss/crossentropy": 2.138452613353729,
      "loss/hidden": 4.002734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2561824645847082,
      "step": 5730
    },
    {
      "epoch": 0.19133333333333333,
      "grad_norm": 36.25,
      "grad_norm_var": 10.508268229166667,
      "learning_rate": 0.0001,
      "loss": 8.7972,
      "loss/crossentropy": 2.291805052757263,
      "loss/hidden": 4.128125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2823994573205709,
      "step": 5740
    },
    {
      "epoch": 0.19166666666666668,
      "grad_norm": 33.75,
      "grad_norm_var": 6.726822916666666,
      "learning_rate": 0.0001,
      "loss": 8.7028,
      "loss/crossentropy": 2.0102537497878075,
      "loss/hidden": 3.940234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2453432971611619,
      "step": 5750
    },
    {
      "epoch": 0.192,
      "grad_norm": 33.5,
      "grad_norm_var": 6.389518229166667,
      "learning_rate": 0.0001,
      "loss": 8.7465,
      "loss/crossentropy": 2.1731634236872197,
      "loss/hidden": 3.894921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24393599089235068,
      "step": 5760
    },
    {
      "epoch": 0.19233333333333333,
      "grad_norm": 40.5,
      "grad_norm_var": 9.5837890625,
      "learning_rate": 0.0001,
      "loss": 8.7436,
      "loss/crossentropy": 1.9870410725474357,
      "loss/hidden": 4.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25361278727650644,
      "step": 5770
    },
    {
      "epoch": 0.19266666666666668,
      "grad_norm": 42.0,
      "grad_norm_var": 14.058333333333334,
      "learning_rate": 0.0001,
      "loss": 8.7938,
      "loss/crossentropy": 1.954255884513259,
      "loss/hidden": 4.16328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27968817451037464,
      "step": 5780
    },
    {
      "epoch": 0.193,
      "grad_norm": 53.5,
      "grad_norm_var": 26.7869140625,
      "learning_rate": 0.0001,
      "loss": 8.8003,
      "loss/crossentropy": 2.2312229365110396,
      "loss/hidden": 3.932421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25941078290343283,
      "step": 5790
    },
    {
      "epoch": 0.19333333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 26.9681640625,
      "learning_rate": 0.0001,
      "loss": 8.6889,
      "loss/crossentropy": 2.2241889007389544,
      "loss/hidden": 4.01640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25501362718641757,
      "step": 5800
    },
    {
      "epoch": 0.19366666666666665,
      "grad_norm": 34.25,
      "grad_norm_var": 6.756705729166667,
      "learning_rate": 0.0001,
      "loss": 8.6629,
      "loss/crossentropy": 2.168029661476612,
      "loss/hidden": 4.10390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2718012981116772,
      "step": 5810
    },
    {
      "epoch": 0.194,
      "grad_norm": 32.75,
      "grad_norm_var": 4.945833333333334,
      "learning_rate": 0.0001,
      "loss": 8.7136,
      "loss/crossentropy": 2.1019906878471373,
      "loss/hidden": 3.940234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25093156583607196,
      "step": 5820
    },
    {
      "epoch": 0.19433333333333333,
      "grad_norm": 35.75,
      "grad_norm_var": 9.555989583333334,
      "learning_rate": 0.0001,
      "loss": 8.6915,
      "loss/crossentropy": 1.9436087012290955,
      "loss/hidden": 4.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25613378193229436,
      "step": 5830
    },
    {
      "epoch": 0.19466666666666665,
      "grad_norm": 33.25,
      "grad_norm_var": 28.499739583333334,
      "learning_rate": 0.0001,
      "loss": 8.8635,
      "loss/crossentropy": 2.1651584833860396,
      "loss/hidden": 4.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2904574632644653,
      "step": 5840
    },
    {
      "epoch": 0.195,
      "grad_norm": 36.0,
      "grad_norm_var": 21.8806640625,
      "learning_rate": 0.0001,
      "loss": 8.8006,
      "loss/crossentropy": 2.1804804012179373,
      "loss/hidden": 3.935546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27036979123950006,
      "step": 5850
    },
    {
      "epoch": 0.19533333333333333,
      "grad_norm": 34.25,
      "grad_norm_var": 5.287434895833333,
      "learning_rate": 0.0001,
      "loss": 8.7782,
      "loss/crossentropy": 2.218150386214256,
      "loss/hidden": 4.070703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2726810619235039,
      "step": 5860
    },
    {
      "epoch": 0.19566666666666666,
      "grad_norm": 34.0,
      "grad_norm_var": 6.895572916666667,
      "learning_rate": 0.0001,
      "loss": 8.7639,
      "loss/crossentropy": 1.987610936909914,
      "loss/hidden": 3.981640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2631619516760111,
      "step": 5870
    },
    {
      "epoch": 0.196,
      "grad_norm": 34.25,
      "grad_norm_var": 7.1416015625,
      "learning_rate": 0.0001,
      "loss": 8.8358,
      "loss/crossentropy": 2.0127531036734583,
      "loss/hidden": 3.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24521693456918,
      "step": 5880
    },
    {
      "epoch": 0.19633333333333333,
      "grad_norm": 37.0,
      "grad_norm_var": 2.460724587808127e+18,
      "learning_rate": 0.0001,
      "loss": 8.7964,
      "loss/crossentropy": 2.158496895432472,
      "loss/hidden": 4.165625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27088434621691704,
      "step": 5890
    },
    {
      "epoch": 0.19666666666666666,
      "grad_norm": 37.5,
      "grad_norm_var": 2.460724587657796e+18,
      "learning_rate": 0.0001,
      "loss": 8.7617,
      "loss/crossentropy": 2.0347786456346513,
      "loss/hidden": 3.994921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.260778752155602,
      "step": 5900
    },
    {
      "epoch": 0.197,
      "grad_norm": 34.75,
      "grad_norm_var": 3.6489583333333333,
      "learning_rate": 0.0001,
      "loss": 8.6594,
      "loss/crossentropy": 1.9388806536793708,
      "loss/hidden": 4.1,
      "loss/jsd": 0.0,
      "loss/logits": 0.25395537763834,
      "step": 5910
    },
    {
      "epoch": 0.19733333333333333,
      "grad_norm": 32.75,
      "grad_norm_var": 6.189518229166667,
      "learning_rate": 0.0001,
      "loss": 8.7194,
      "loss/crossentropy": 2.3467346012592314,
      "loss/hidden": 3.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27363166082650425,
      "step": 5920
    },
    {
      "epoch": 0.19766666666666666,
      "grad_norm": 28.25,
      "grad_norm_var": 6.940559895833333,
      "learning_rate": 0.0001,
      "loss": 8.7149,
      "loss/crossentropy": 2.1685155972838404,
      "loss/hidden": 4.040625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2792276293039322,
      "step": 5930
    },
    {
      "epoch": 0.198,
      "grad_norm": 44.0,
      "grad_norm_var": 14.130143229166666,
      "learning_rate": 0.0001,
      "loss": 8.9314,
      "loss/crossentropy": 2.12467120885849,
      "loss/hidden": 4.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2669179428368807,
      "step": 5940
    },
    {
      "epoch": 0.19833333333333333,
      "grad_norm": 28.5,
      "grad_norm_var": 16.2056640625,
      "learning_rate": 0.0001,
      "loss": 8.8839,
      "loss/crossentropy": 2.1688647463917734,
      "loss/hidden": 3.9515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26754092089831827,
      "step": 5950
    },
    {
      "epoch": 0.19866666666666666,
      "grad_norm": 36.0,
      "grad_norm_var": 20.826041666666665,
      "learning_rate": 0.0001,
      "loss": 8.8604,
      "loss/crossentropy": 2.182598438858986,
      "loss/hidden": 4.00234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2616792509332299,
      "step": 5960
    },
    {
      "epoch": 0.199,
      "grad_norm": 34.0,
      "grad_norm_var": 18.274934895833333,
      "learning_rate": 0.0001,
      "loss": 8.7711,
      "loss/crossentropy": 2.132971841096878,
      "loss/hidden": 4.112890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3083286764100194,
      "step": 5970
    },
    {
      "epoch": 0.19933333333333333,
      "grad_norm": 29.75,
      "grad_norm_var": 7.208333333333333,
      "learning_rate": 0.0001,
      "loss": 8.7614,
      "loss/crossentropy": 2.1833253771066667,
      "loss/hidden": 3.871484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24754995480179787,
      "step": 5980
    },
    {
      "epoch": 0.19966666666666666,
      "grad_norm": 31.0,
      "grad_norm_var": 30.2509765625,
      "learning_rate": 0.0001,
      "loss": 8.6977,
      "loss/crossentropy": 2.2232595421373844,
      "loss/hidden": 3.9734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2633102308958769,
      "step": 5990
    },
    {
      "epoch": 0.2,
      "grad_norm": 38.25,
      "grad_norm_var": 27.7150390625,
      "learning_rate": 0.0001,
      "loss": 8.8047,
      "loss/crossentropy": 2.0881299793720247,
      "loss/hidden": 4.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2889344684779644,
      "step": 6000
    },
    {
      "epoch": 0.20033333333333334,
      "grad_norm": 30.375,
      "grad_norm_var": 8.056705729166667,
      "learning_rate": 0.0001,
      "loss": 8.6569,
      "loss/crossentropy": 2.0547440201044083,
      "loss/hidden": 3.99921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24832881577312946,
      "step": 6010
    },
    {
      "epoch": 0.20066666666666666,
      "grad_norm": 38.0,
      "grad_norm_var": 7.056184895833334,
      "learning_rate": 0.0001,
      "loss": 8.7794,
      "loss/crossentropy": 2.1193090736866,
      "loss/hidden": 4.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2597900453954935,
      "step": 6020
    },
    {
      "epoch": 0.201,
      "grad_norm": 32.25,
      "grad_norm_var": 5.3025390625,
      "learning_rate": 0.0001,
      "loss": 8.6794,
      "loss/crossentropy": 2.2494138766080143,
      "loss/hidden": 3.8703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2641505628824234,
      "step": 6030
    },
    {
      "epoch": 0.20133333333333334,
      "grad_norm": 4932501504.0,
      "grad_norm_var": 1.5205981723933279e+18,
      "learning_rate": 0.0001,
      "loss": 8.9463,
      "loss/crossentropy": 2.3256581157445906,
      "loss/hidden": 3.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26595249325037,
      "step": 6040
    },
    {
      "epoch": 0.20166666666666666,
      "grad_norm": 37.0,
      "grad_norm_var": 1.52059817108827e+18,
      "learning_rate": 0.0001,
      "loss": 8.8264,
      "loss/crossentropy": 2.053881608694792,
      "loss/hidden": 3.95546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24859177209436895,
      "step": 6050
    },
    {
      "epoch": 0.202,
      "grad_norm": 31.125,
      "grad_norm_var": 4.933268229166667,
      "learning_rate": 0.0001,
      "loss": 8.7041,
      "loss/crossentropy": 2.1878477543592454,
      "loss/hidden": 3.91875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2409949317574501,
      "step": 6060
    },
    {
      "epoch": 0.20233333333333334,
      "grad_norm": 33.0,
      "grad_norm_var": 351.74140625,
      "learning_rate": 0.0001,
      "loss": 8.7973,
      "loss/crossentropy": 2.1990287870168688,
      "loss/hidden": 4.031640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2801033824682236,
      "step": 6070
    },
    {
      "epoch": 0.20266666666666666,
      "grad_norm": 30.375,
      "grad_norm_var": 63.73125,
      "learning_rate": 0.0001,
      "loss": 8.7133,
      "loss/crossentropy": 2.2455021925270557,
      "loss/hidden": 3.989453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27408372741192577,
      "step": 6080
    },
    {
      "epoch": 0.203,
      "grad_norm": 41.5,
      "grad_norm_var": 15.795572916666666,
      "learning_rate": 0.0001,
      "loss": 8.7392,
      "loss/crossentropy": 2.005758151039481,
      "loss/hidden": 3.888671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24863583762198688,
      "step": 6090
    },
    {
      "epoch": 0.20333333333333334,
      "grad_norm": 31.125,
      "grad_norm_var": 6.892122395833334,
      "learning_rate": 0.0001,
      "loss": 8.6557,
      "loss/crossentropy": 2.0756575793027876,
      "loss/hidden": 3.941796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25259528737515213,
      "step": 6100
    },
    {
      "epoch": 0.20366666666666666,
      "grad_norm": 35.75,
      "grad_norm_var": 3.395768229166667,
      "learning_rate": 0.0001,
      "loss": 8.8129,
      "loss/crossentropy": 2.1710173338651657,
      "loss/hidden": 4.084375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24820818062871694,
      "step": 6110
    },
    {
      "epoch": 0.204,
      "grad_norm": 33.75,
      "grad_norm_var": 14.166080729166667,
      "learning_rate": 0.0001,
      "loss": 8.6818,
      "loss/crossentropy": 2.2217075169086455,
      "loss/hidden": 4.032421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2922105029225349,
      "step": 6120
    },
    {
      "epoch": 0.20433333333333334,
      "grad_norm": 36.75,
      "grad_norm_var": 15.454166666666667,
      "learning_rate": 0.0001,
      "loss": 8.7605,
      "loss/crossentropy": 2.103864422440529,
      "loss/hidden": 3.80625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2378301707096398,
      "step": 6130
    },
    {
      "epoch": 0.20466666666666666,
      "grad_norm": 34.25,
      "grad_norm_var": 5.6337890625,
      "learning_rate": 0.0001,
      "loss": 8.5937,
      "loss/crossentropy": 2.066901922225952,
      "loss/hidden": 3.96796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24710494233295321,
      "step": 6140
    },
    {
      "epoch": 0.205,
      "grad_norm": 39.0,
      "grad_norm_var": 13.94765625,
      "learning_rate": 0.0001,
      "loss": 8.7255,
      "loss/crossentropy": 2.068124470114708,
      "loss/hidden": 3.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25081984605640173,
      "step": 6150
    },
    {
      "epoch": 0.20533333333333334,
      "grad_norm": 30.125,
      "grad_norm_var": 23.54140625,
      "learning_rate": 0.0001,
      "loss": 8.759,
      "loss/crossentropy": 2.2413846030831337,
      "loss/hidden": 4.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30093136746436355,
      "step": 6160
    },
    {
      "epoch": 0.20566666666666666,
      "grad_norm": 41.0,
      "grad_norm_var": 8.30390625,
      "learning_rate": 0.0001,
      "loss": 8.6887,
      "loss/crossentropy": 2.060081334412098,
      "loss/hidden": 3.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24737574942409993,
      "step": 6170
    },
    {
      "epoch": 0.206,
      "grad_norm": 33.5,
      "grad_norm_var": 9.3087890625,
      "learning_rate": 0.0001,
      "loss": 8.7567,
      "loss/crossentropy": 2.1451657354831695,
      "loss/hidden": 4.12265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2983713150024414,
      "step": 6180
    },
    {
      "epoch": 0.20633333333333334,
      "grad_norm": 40.75,
      "grad_norm_var": 76.71399739583333,
      "learning_rate": 0.0001,
      "loss": 8.715,
      "loss/crossentropy": 2.2015042565762997,
      "loss/hidden": 4.01796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27279378157109024,
      "step": 6190
    },
    {
      "epoch": 0.20666666666666667,
      "grad_norm": 34.75,
      "grad_norm_var": 80.88958333333333,
      "learning_rate": 0.0001,
      "loss": 8.6619,
      "loss/crossentropy": 2.127535600960255,
      "loss/hidden": 3.954296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2594041220843792,
      "step": 6200
    },
    {
      "epoch": 0.207,
      "grad_norm": 32.0,
      "grad_norm_var": 7.032747395833334,
      "learning_rate": 0.0001,
      "loss": 8.7577,
      "loss/crossentropy": 2.1385881870985033,
      "loss/hidden": 3.964453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2612423226237297,
      "step": 6210
    },
    {
      "epoch": 0.20733333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 11.701041666666667,
      "learning_rate": 0.0001,
      "loss": 8.688,
      "loss/crossentropy": 2.0760431602597236,
      "loss/hidden": 3.905859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2630361717194319,
      "step": 6220
    },
    {
      "epoch": 0.20766666666666667,
      "grad_norm": 37.25,
      "grad_norm_var": 22.809375,
      "learning_rate": 0.0001,
      "loss": 8.5522,
      "loss/crossentropy": 2.135862450301647,
      "loss/hidden": 3.986328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2494693139567971,
      "step": 6230
    },
    {
      "epoch": 0.208,
      "grad_norm": 34.5,
      "grad_norm_var": 16.30390625,
      "learning_rate": 0.0001,
      "loss": 8.6282,
      "loss/crossentropy": 2.0777343571186067,
      "loss/hidden": 4.07109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2899452358484268,
      "step": 6240
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 30.5,
      "grad_norm_var": 5.9728515625,
      "learning_rate": 0.0001,
      "loss": 8.7862,
      "loss/crossentropy": 2.2019074261188507,
      "loss/hidden": 3.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25109023675322534,
      "step": 6250
    },
    {
      "epoch": 0.20866666666666667,
      "grad_norm": 31.5,
      "grad_norm_var": 5.348372395833334,
      "learning_rate": 0.0001,
      "loss": 8.6853,
      "loss/crossentropy": 2.2050928086042405,
      "loss/hidden": 3.96953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2619493114762008,
      "step": 6260
    },
    {
      "epoch": 0.209,
      "grad_norm": 31.875,
      "grad_norm_var": 4.7322265625,
      "learning_rate": 0.0001,
      "loss": 8.5978,
      "loss/crossentropy": 2.322963085025549,
      "loss/hidden": 3.87578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26414704993367194,
      "step": 6270
    },
    {
      "epoch": 0.20933333333333334,
      "grad_norm": 6845104128.0,
      "grad_norm_var": 2.9284656289268367e+18,
      "learning_rate": 0.0001,
      "loss": 8.7111,
      "loss/crossentropy": 1.9891023762524127,
      "loss/hidden": 4.237890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24320064708590508,
      "step": 6280
    },
    {
      "epoch": 0.20966666666666667,
      "grad_norm": 42.25,
      "grad_norm_var": 2.928465627087215e+18,
      "learning_rate": 0.0001,
      "loss": 8.8478,
      "loss/crossentropy": 2.1030918568372727,
      "loss/hidden": 3.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2577778071165085,
      "step": 6290
    },
    {
      "epoch": 0.21,
      "grad_norm": 33.75,
      "grad_norm_var": 9.833333333333334,
      "learning_rate": 0.0001,
      "loss": 8.7841,
      "loss/crossentropy": 2.1194095268845556,
      "loss/hidden": 3.93515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25438457299023864,
      "step": 6300
    },
    {
      "epoch": 0.21033333333333334,
      "grad_norm": 38.0,
      "grad_norm_var": 5.684830729166666,
      "learning_rate": 0.0001,
      "loss": 8.6073,
      "loss/crossentropy": 2.1838410973548887,
      "loss/hidden": 3.905078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2590842802077532,
      "step": 6310
    },
    {
      "epoch": 0.21066666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 14.130989583333333,
      "learning_rate": 0.0001,
      "loss": 8.6961,
      "loss/crossentropy": 2.1097051329910754,
      "loss/hidden": 3.87265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2509492003358901,
      "step": 6320
    },
    {
      "epoch": 0.211,
      "grad_norm": 32.75,
      "grad_norm_var": 7.970572916666667,
      "learning_rate": 0.0001,
      "loss": 8.758,
      "loss/crossentropy": 2.1945007756352424,
      "loss/hidden": 3.985546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25893947295844555,
      "step": 6330
    },
    {
      "epoch": 0.21133333333333335,
      "grad_norm": 36.0,
      "grad_norm_var": 1.7789921967526118e+18,
      "learning_rate": 0.0001,
      "loss": 8.905,
      "loss/crossentropy": 2.058439862728119,
      "loss/hidden": 4.17421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26833444014191626,
      "step": 6340
    },
    {
      "epoch": 0.21166666666666667,
      "grad_norm": 32.0,
      "grad_norm_var": 104.33229166666666,
      "learning_rate": 0.0001,
      "loss": 8.6526,
      "loss/crossentropy": 1.890061966329813,
      "loss/hidden": 4.045703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2450747612863779,
      "step": 6350
    },
    {
      "epoch": 0.212,
      "grad_norm": 29.625,
      "grad_norm_var": 22.006184895833332,
      "learning_rate": 0.0001,
      "loss": 8.7864,
      "loss/crossentropy": 2.1768174074590205,
      "loss/hidden": 4.052734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24862836562097074,
      "step": 6360
    },
    {
      "epoch": 0.21233333333333335,
      "grad_norm": 34.75,
      "grad_norm_var": 99.80598958333333,
      "learning_rate": 0.0001,
      "loss": 8.6528,
      "loss/crossentropy": 2.2797497868537904,
      "loss/hidden": 3.957421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26709459256380796,
      "step": 6370
    },
    {
      "epoch": 0.21266666666666667,
      "grad_norm": 32.5,
      "grad_norm_var": 86.98274739583333,
      "learning_rate": 0.0001,
      "loss": 8.6966,
      "loss/crossentropy": 2.178654319047928,
      "loss/hidden": 4.08046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2537883473560214,
      "step": 6380
    },
    {
      "epoch": 0.213,
      "grad_norm": 29.625,
      "grad_norm_var": 13.905208333333333,
      "learning_rate": 0.0001,
      "loss": 8.705,
      "loss/crossentropy": 2.0725951939821243,
      "loss/hidden": 3.972265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25900917164981363,
      "step": 6390
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 34.75,
      "grad_norm_var": 6.137239583333334,
      "learning_rate": 0.0001,
      "loss": 8.7598,
      "loss/crossentropy": 2.3110455900430678,
      "loss/hidden": 4.031640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28035171553492544,
      "step": 6400
    },
    {
      "epoch": 0.21366666666666667,
      "grad_norm": 35.0,
      "grad_norm_var": 10.5744140625,
      "learning_rate": 0.0001,
      "loss": 8.7293,
      "loss/crossentropy": 2.2058258563280106,
      "loss/hidden": 3.8546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2550595965236425,
      "step": 6410
    },
    {
      "epoch": 0.214,
      "grad_norm": 35.25,
      "grad_norm_var": 8.562239583333334,
      "learning_rate": 0.0001,
      "loss": 8.7376,
      "loss/crossentropy": 2.150018022954464,
      "loss/hidden": 3.87890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2502748826518655,
      "step": 6420
    },
    {
      "epoch": 0.21433333333333332,
      "grad_norm": 34.5,
      "grad_norm_var": 1.9860874111488097e+18,
      "learning_rate": 0.0001,
      "loss": 8.7269,
      "loss/crossentropy": 2.2726529754698275,
      "loss/hidden": 3.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2701293595135212,
      "step": 6430
    },
    {
      "epoch": 0.21466666666666667,
      "grad_norm": 34.0,
      "grad_norm_var": 6.182747395833333,
      "learning_rate": 0.0001,
      "loss": 8.5577,
      "loss/crossentropy": 2.217649821192026,
      "loss/hidden": 3.965234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2551640780642629,
      "step": 6440
    },
    {
      "epoch": 0.215,
      "grad_norm": 39.5,
      "grad_norm_var": 8.399739583333334,
      "learning_rate": 0.0001,
      "loss": 8.5535,
      "loss/crossentropy": 2.080750811100006,
      "loss/hidden": 3.88671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23864807337522506,
      "step": 6450
    },
    {
      "epoch": 0.21533333333333332,
      "grad_norm": 31.125,
      "grad_norm_var": 5.915559895833334,
      "learning_rate": 0.0001,
      "loss": 8.5244,
      "loss/crossentropy": 2.1134666696190836,
      "loss/hidden": 3.774609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23039107713848353,
      "step": 6460
    },
    {
      "epoch": 0.21566666666666667,
      "grad_norm": 34.5,
      "grad_norm_var": 12.49765625,
      "learning_rate": 0.0001,
      "loss": 8.6924,
      "loss/crossentropy": 2.2306397944688796,
      "loss/hidden": 4.040234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28511182554066183,
      "step": 6470
    },
    {
      "epoch": 0.216,
      "grad_norm": 38.75,
      "grad_norm_var": 8.626497395833333,
      "learning_rate": 0.0001,
      "loss": 8.7111,
      "loss/crossentropy": 2.084462544322014,
      "loss/hidden": 4.030859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2595676215365529,
      "step": 6480
    },
    {
      "epoch": 0.21633333333333332,
      "grad_norm": 36.5,
      "grad_norm_var": 12.863997395833334,
      "learning_rate": 0.0001,
      "loss": 8.6783,
      "loss/crossentropy": 2.2381670981645585,
      "loss/hidden": 3.99375,
      "loss/jsd": 0.0,
      "loss/logits": 0.272398603707552,
      "step": 6490
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 34.75,
      "grad_norm_var": 11.4994140625,
      "learning_rate": 0.0001,
      "loss": 8.575,
      "loss/crossentropy": 2.169520039856434,
      "loss/hidden": 3.975390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26597979068756106,
      "step": 6500
    },
    {
      "epoch": 0.217,
      "grad_norm": 31.375,
      "grad_norm_var": 14.201822916666666,
      "learning_rate": 0.0001,
      "loss": 8.7438,
      "loss/crossentropy": 2.3124695271253586,
      "loss/hidden": 3.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28047500401735304,
      "step": 6510
    },
    {
      "epoch": 0.21733333333333332,
      "grad_norm": 30.625,
      "grad_norm_var": 18.00625,
      "learning_rate": 0.0001,
      "loss": 8.6633,
      "loss/crossentropy": 2.23331324160099,
      "loss/hidden": 3.9703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2535081097856164,
      "step": 6520
    },
    {
      "epoch": 0.21766666666666667,
      "grad_norm": 32.5,
      "grad_norm_var": 13.676041666666666,
      "learning_rate": 0.0001,
      "loss": 8.6314,
      "loss/crossentropy": 2.073501707613468,
      "loss/hidden": 4.06171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2697511712089181,
      "step": 6530
    },
    {
      "epoch": 0.218,
      "grad_norm": 36.0,
      "grad_norm_var": 18.245572916666667,
      "learning_rate": 0.0001,
      "loss": 8.5764,
      "loss/crossentropy": 2.1756048664450645,
      "loss/hidden": 3.879296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24116889759898186,
      "step": 6540
    },
    {
      "epoch": 0.21833333333333332,
      "grad_norm": 31.625,
      "grad_norm_var": 8.464322916666667,
      "learning_rate": 0.0001,
      "loss": 8.6286,
      "loss/crossentropy": 1.9958701081573964,
      "loss/hidden": 3.88671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24323785230517386,
      "step": 6550
    },
    {
      "epoch": 0.21866666666666668,
      "grad_norm": 33.5,
      "grad_norm_var": 6.9931640625,
      "learning_rate": 0.0001,
      "loss": 8.6222,
      "loss/crossentropy": 2.1122898295521737,
      "loss/hidden": 3.958984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27048107255250214,
      "step": 6560
    },
    {
      "epoch": 0.219,
      "grad_norm": 31.5,
      "grad_norm_var": 7.69765625,
      "learning_rate": 0.0001,
      "loss": 8.6798,
      "loss/crossentropy": 2.167936125397682,
      "loss/hidden": 3.95,
      "loss/jsd": 0.0,
      "loss/logits": 0.2612238049507141,
      "step": 6570
    },
    {
      "epoch": 0.21933333333333332,
      "grad_norm": 30.75,
      "grad_norm_var": 12.91015625,
      "learning_rate": 0.0001,
      "loss": 8.6542,
      "loss/crossentropy": 2.060488347709179,
      "loss/hidden": 3.866015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23970827981829643,
      "step": 6580
    },
    {
      "epoch": 0.21966666666666668,
      "grad_norm": 34.5,
      "grad_norm_var": 12.857747395833334,
      "learning_rate": 0.0001,
      "loss": 8.7149,
      "loss/crossentropy": 2.2109495267271995,
      "loss/hidden": 3.906640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2613677404820919,
      "step": 6590
    },
    {
      "epoch": 0.22,
      "grad_norm": 34.5,
      "grad_norm_var": 2.7032856480426143e+18,
      "learning_rate": 0.0001,
      "loss": 8.6825,
      "loss/crossentropy": 2.1443465147167444,
      "loss/hidden": 4.11484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2631368327885866,
      "step": 6600
    },
    {
      "epoch": 0.22033333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 37.95774739583333,
      "learning_rate": 0.0001,
      "loss": 8.6734,
      "loss/crossentropy": 2.1459231124259532,
      "loss/hidden": 3.95625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2577024588827044,
      "step": 6610
    },
    {
      "epoch": 0.22066666666666668,
      "grad_norm": 30.5,
      "grad_norm_var": 5.280989583333334,
      "learning_rate": 0.0001,
      "loss": 8.716,
      "loss/crossentropy": 2.4239099472761154,
      "loss/hidden": 3.99921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28959855400025847,
      "step": 6620
    },
    {
      "epoch": 0.221,
      "grad_norm": 31.625,
      "grad_norm_var": 6.0494140625,
      "learning_rate": 0.0001,
      "loss": 8.5097,
      "loss/crossentropy": 1.954162660241127,
      "loss/hidden": 3.962890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2510778192430735,
      "step": 6630
    },
    {
      "epoch": 0.22133333333333333,
      "grad_norm": 32.5,
      "grad_norm_var": 4.501041666666667,
      "learning_rate": 0.0001,
      "loss": 8.5961,
      "loss/crossentropy": 2.131689856946468,
      "loss/hidden": 3.87421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24224275033921003,
      "step": 6640
    },
    {
      "epoch": 0.22166666666666668,
      "grad_norm": 34.25,
      "grad_norm_var": 10.9759765625,
      "learning_rate": 0.0001,
      "loss": 8.5582,
      "loss/crossentropy": 2.0610960900783537,
      "loss/hidden": 3.917578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24408777449280022,
      "step": 6650
    },
    {
      "epoch": 0.222,
      "grad_norm": 34.75,
      "grad_norm_var": 7.430989583333333,
      "learning_rate": 0.0001,
      "loss": 8.6865,
      "loss/crossentropy": 2.12496095597744,
      "loss/hidden": 3.811328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2433070670813322,
      "step": 6660
    },
    {
      "epoch": 0.22233333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 10.940559895833333,
      "learning_rate": 0.0001,
      "loss": 8.57,
      "loss/crossentropy": 2.1832097455859185,
      "loss/hidden": 3.923828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2531871374696493,
      "step": 6670
    },
    {
      "epoch": 0.22266666666666668,
      "grad_norm": 31.0,
      "grad_norm_var": 11.620572916666667,
      "learning_rate": 0.0001,
      "loss": 8.6083,
      "loss/crossentropy": 2.2909538954496385,
      "loss/hidden": 3.934765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26815793141722677,
      "step": 6680
    },
    {
      "epoch": 0.223,
      "grad_norm": 32.5,
      "grad_norm_var": 9.41875,
      "learning_rate": 0.0001,
      "loss": 8.6731,
      "loss/crossentropy": 2.208388736844063,
      "loss/hidden": 3.87265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25899204462766645,
      "step": 6690
    },
    {
      "epoch": 0.22333333333333333,
      "grad_norm": 49.25,
      "grad_norm_var": 24.110872395833333,
      "learning_rate": 0.0001,
      "loss": 8.7066,
      "loss/crossentropy": 2.1818058155477047,
      "loss/hidden": 4.038671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2769562091678381,
      "step": 6700
    },
    {
      "epoch": 0.22366666666666668,
      "grad_norm": 31.125,
      "grad_norm_var": 38.39375,
      "learning_rate": 0.0001,
      "loss": 8.7785,
      "loss/crossentropy": 2.1179177343845366,
      "loss/hidden": 4.037109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2616199808195233,
      "step": 6710
    },
    {
      "epoch": 0.224,
      "grad_norm": 31.875,
      "grad_norm_var": 5.8947265625,
      "learning_rate": 0.0001,
      "loss": 8.6151,
      "loss/crossentropy": 2.0090429857373238,
      "loss/hidden": 3.823046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2248888023197651,
      "step": 6720
    },
    {
      "epoch": 0.22433333333333333,
      "grad_norm": 31.0,
      "grad_norm_var": 55.145572916666666,
      "learning_rate": 0.0001,
      "loss": 8.7802,
      "loss/crossentropy": 2.1233505457639694,
      "loss/hidden": 3.835546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2540145181119442,
      "step": 6730
    },
    {
      "epoch": 0.22466666666666665,
      "grad_norm": 32.75,
      "grad_norm_var": 2.668684895833333,
      "learning_rate": 0.0001,
      "loss": 8.6411,
      "loss/crossentropy": 2.240196964144707,
      "loss/hidden": 4.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26511474009603264,
      "step": 6740
    },
    {
      "epoch": 0.225,
      "grad_norm": 39.25,
      "grad_norm_var": 7.196875,
      "learning_rate": 0.0001,
      "loss": 8.4853,
      "loss/crossentropy": 2.1406675301492215,
      "loss/hidden": 3.93125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24782155379652976,
      "step": 6750
    },
    {
      "epoch": 0.22533333333333333,
      "grad_norm": 31.0,
      "grad_norm_var": 7.8353515625,
      "learning_rate": 0.0001,
      "loss": 8.6089,
      "loss/crossentropy": 2.071791734546423,
      "loss/hidden": 3.878515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25682480856776235,
      "step": 6760
    },
    {
      "epoch": 0.22566666666666665,
      "grad_norm": 48.0,
      "grad_norm_var": 1.824028194531967e+18,
      "learning_rate": 0.0001,
      "loss": 8.8247,
      "loss/crossentropy": 2.240962551534176,
      "loss/hidden": 3.891796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25645633824169634,
      "step": 6770
    },
    {
      "epoch": 0.226,
      "grad_norm": 29.5,
      "grad_norm_var": 3.556337769787687e+18,
      "learning_rate": 0.0001,
      "loss": 8.7193,
      "loss/crossentropy": 1.969706627726555,
      "loss/hidden": 4.058203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2760220758616924,
      "step": 6780
    },
    {
      "epoch": 0.22633333333333333,
      "grad_norm": 37.5,
      "grad_norm_var": 1.986087411876941e+18,
      "learning_rate": 0.0001,
      "loss": 8.718,
      "loss/crossentropy": 2.0835460133850576,
      "loss/hidden": 4.033203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27087474074214696,
      "step": 6790
    },
    {
      "epoch": 0.22666666666666666,
      "grad_norm": 37.0,
      "grad_norm_var": 12.514583333333333,
      "learning_rate": 0.0001,
      "loss": 8.5738,
      "loss/crossentropy": 2.0835996329784394,
      "loss/hidden": 4.028125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26487845852971076,
      "step": 6800
    },
    {
      "epoch": 0.227,
      "grad_norm": 33.75,
      "grad_norm_var": 13.1212890625,
      "learning_rate": 0.0001,
      "loss": 8.6835,
      "loss/crossentropy": 2.174676289409399,
      "loss/hidden": 3.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24940601829439402,
      "step": 6810
    },
    {
      "epoch": 0.22733333333333333,
      "grad_norm": 30.0,
      "grad_norm_var": 30.77890625,
      "learning_rate": 0.0001,
      "loss": 8.7017,
      "loss/crossentropy": 1.9795321062207223,
      "loss/hidden": 3.940625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2277604851871729,
      "step": 6820
    },
    {
      "epoch": 0.22766666666666666,
      "grad_norm": 36.0,
      "grad_norm_var": 29.243489583333332,
      "learning_rate": 0.0001,
      "loss": 8.6398,
      "loss/crossentropy": 2.0192734390497207,
      "loss/hidden": 3.87421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27642418537288904,
      "step": 6830
    },
    {
      "epoch": 0.228,
      "grad_norm": 31.875,
      "grad_norm_var": 8.983268229166667,
      "learning_rate": 0.0001,
      "loss": 8.6125,
      "loss/crossentropy": 2.0098339319229126,
      "loss/hidden": 4.141015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2576570626348257,
      "step": 6840
    },
    {
      "epoch": 0.22833333333333333,
      "grad_norm": 31.25,
      "grad_norm_var": 16.34765625,
      "learning_rate": 0.0001,
      "loss": 8.5918,
      "loss/crossentropy": 2.0969722121953964,
      "loss/hidden": 4.009765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27101105730980635,
      "step": 6850
    },
    {
      "epoch": 0.22866666666666666,
      "grad_norm": 30.375,
      "grad_norm_var": 13.826822916666666,
      "learning_rate": 0.0001,
      "loss": 8.5323,
      "loss/crossentropy": 2.1093384474515915,
      "loss/hidden": 3.993359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26533141303807495,
      "step": 6860
    },
    {
      "epoch": 0.229,
      "grad_norm": 38.75,
      "grad_norm_var": 5.7994140625,
      "learning_rate": 0.0001,
      "loss": 8.6041,
      "loss/crossentropy": 2.2051602229475975,
      "loss/hidden": 4.044921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27079470865428446,
      "step": 6870
    },
    {
      "epoch": 0.22933333333333333,
      "grad_norm": 36.25,
      "grad_norm_var": 6.357291666666667,
      "learning_rate": 0.0001,
      "loss": 8.5977,
      "loss/crossentropy": 2.13309033960104,
      "loss/hidden": 3.709765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23595739863812923,
      "step": 6880
    },
    {
      "epoch": 0.22966666666666666,
      "grad_norm": 32.0,
      "grad_norm_var": 5.145833333333333,
      "learning_rate": 0.0001,
      "loss": 8.485,
      "loss/crossentropy": 2.205070769786835,
      "loss/hidden": 3.733984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23339474331587554,
      "step": 6890
    },
    {
      "epoch": 0.23,
      "grad_norm": 32.25,
      "grad_norm_var": 12.338541666666666,
      "learning_rate": 0.0001,
      "loss": 8.5976,
      "loss/crossentropy": 2.162086985260248,
      "loss/hidden": 3.76953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23039890434592963,
      "step": 6900
    },
    {
      "epoch": 0.23033333333333333,
      "grad_norm": 41.25,
      "grad_norm_var": 15.233268229166667,
      "learning_rate": 0.0001,
      "loss": 8.5384,
      "loss/crossentropy": 2.0678157053887842,
      "loss/hidden": 3.982421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2481289473362267,
      "step": 6910
    },
    {
      "epoch": 0.23066666666666666,
      "grad_norm": 44.5,
      "grad_norm_var": 12.778580729166666,
      "learning_rate": 0.0001,
      "loss": 8.6622,
      "loss/crossentropy": 2.114139196276665,
      "loss/hidden": 3.91328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25735178850591184,
      "step": 6920
    },
    {
      "epoch": 0.231,
      "grad_norm": 34.25,
      "grad_norm_var": 31.0625,
      "learning_rate": 0.0001,
      "loss": 8.607,
      "loss/crossentropy": 2.0753188371658324,
      "loss/hidden": 4.03359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24515043962746857,
      "step": 6930
    },
    {
      "epoch": 0.23133333333333334,
      "grad_norm": 36.5,
      "grad_norm_var": 3.3962890625,
      "learning_rate": 0.0001,
      "loss": 8.4551,
      "loss/crossentropy": 2.1153680123388767,
      "loss/hidden": 3.856640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2439242374151945,
      "step": 6940
    },
    {
      "epoch": 0.23166666666666666,
      "grad_norm": 34.25,
      "grad_norm_var": 7.212955729166667,
      "learning_rate": 0.0001,
      "loss": 8.5571,
      "loss/crossentropy": 2.2401276588439942,
      "loss/hidden": 3.83671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2469344925135374,
      "step": 6950
    },
    {
      "epoch": 0.232,
      "grad_norm": 33.0,
      "grad_norm_var": 14.067643229166666,
      "learning_rate": 0.0001,
      "loss": 8.5338,
      "loss/crossentropy": 2.1172975957393647,
      "loss/hidden": 4.00703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2541731720790267,
      "step": 6960
    },
    {
      "epoch": 0.23233333333333334,
      "grad_norm": 40.75,
      "grad_norm_var": 8.700455729166666,
      "learning_rate": 0.0001,
      "loss": 8.5392,
      "loss/crossentropy": 2.144708326458931,
      "loss/hidden": 3.851171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2414156835526228,
      "step": 6970
    },
    {
      "epoch": 0.23266666666666666,
      "grad_norm": 37.75,
      "grad_norm_var": 7.82265625,
      "learning_rate": 0.0001,
      "loss": 8.4426,
      "loss/crossentropy": 2.066808733344078,
      "loss/hidden": 3.741015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23481324184685945,
      "step": 6980
    },
    {
      "epoch": 0.233,
      "grad_norm": 36.0,
      "grad_norm_var": 6.967708333333333,
      "learning_rate": 0.0001,
      "loss": 8.6706,
      "loss/crossentropy": 2.0547366201877595,
      "loss/hidden": 3.919140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2535815857350826,
      "step": 6990
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 35.75,
      "grad_norm_var": 16.675455729166668,
      "learning_rate": 0.0001,
      "loss": 8.5713,
      "loss/crossentropy": 2.146591657400131,
      "loss/hidden": 3.892578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26058912873268125,
      "step": 7000
    },
    {
      "epoch": 0.23366666666666666,
      "grad_norm": 35.0,
      "grad_norm_var": 14.667122395833333,
      "learning_rate": 0.0001,
      "loss": 8.7385,
      "loss/crossentropy": 2.028310924768448,
      "loss/hidden": 3.966015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.254487244784832,
      "step": 7010
    },
    {
      "epoch": 0.234,
      "grad_norm": 33.5,
      "grad_norm_var": 5.967643229166667,
      "learning_rate": 0.0001,
      "loss": 8.7735,
      "loss/crossentropy": 2.1410273112356664,
      "loss/hidden": 3.881640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24528108015656472,
      "step": 7020
    },
    {
      "epoch": 0.23433333333333334,
      "grad_norm": 33.25,
      "grad_norm_var": 3.5994140625,
      "learning_rate": 0.0001,
      "loss": 8.5423,
      "loss/crossentropy": 2.0229434952139855,
      "loss/hidden": 3.830078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23408238925039768,
      "step": 7030
    },
    {
      "epoch": 0.23466666666666666,
      "grad_norm": 31.75,
      "grad_norm_var": 2.78125,
      "learning_rate": 0.0001,
      "loss": 8.6283,
      "loss/crossentropy": 2.1765091590583325,
      "loss/hidden": 3.98203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26205482967197896,
      "step": 7040
    },
    {
      "epoch": 0.235,
      "grad_norm": 31.75,
      "grad_norm_var": 5.094205729166666,
      "learning_rate": 0.0001,
      "loss": 8.5875,
      "loss/crossentropy": 2.1615469992160796,
      "loss/hidden": 3.816015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2432116275653243,
      "step": 7050
    },
    {
      "epoch": 0.23533333333333334,
      "grad_norm": 33.5,
      "grad_norm_var": 8.434830729166666,
      "learning_rate": 0.0001,
      "loss": 8.6217,
      "loss/crossentropy": 2.0332022219896317,
      "loss/hidden": 3.891015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24271235838532448,
      "step": 7060
    },
    {
      "epoch": 0.23566666666666666,
      "grad_norm": 33.0,
      "grad_norm_var": 80.83541666666666,
      "learning_rate": 0.0001,
      "loss": 8.6128,
      "loss/crossentropy": 2.094720220565796,
      "loss/hidden": 3.84296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22856017146259547,
      "step": 7070
    },
    {
      "epoch": 0.236,
      "grad_norm": 31.5,
      "grad_norm_var": 1.5458333333333334,
      "learning_rate": 0.0001,
      "loss": 8.5501,
      "loss/crossentropy": 2.1444082021713258,
      "loss/hidden": 3.938671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25706543773412704,
      "step": 7080
    },
    {
      "epoch": 0.23633333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 5.824739583333334,
      "learning_rate": 0.0001,
      "loss": 8.7055,
      "loss/crossentropy": 2.269250899553299,
      "loss/hidden": 4.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2765824764966965,
      "step": 7090
    },
    {
      "epoch": 0.23666666666666666,
      "grad_norm": 36.75,
      "grad_norm_var": 16.210416666666667,
      "learning_rate": 0.0001,
      "loss": 8.6437,
      "loss/crossentropy": 2.0246976539492607,
      "loss/hidden": 3.973828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24731771647930145,
      "step": 7100
    },
    {
      "epoch": 0.237,
      "grad_norm": 30.125,
      "grad_norm_var": 11.0166015625,
      "learning_rate": 0.0001,
      "loss": 8.5064,
      "loss/crossentropy": 2.1460629656910895,
      "loss/hidden": 3.94375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24730791207402944,
      "step": 7110
    },
    {
      "epoch": 0.23733333333333334,
      "grad_norm": 32.75,
      "grad_norm_var": 15.567122395833334,
      "learning_rate": 0.0001,
      "loss": 8.6119,
      "loss/crossentropy": 2.0084538377821444,
      "loss/hidden": 3.947265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2514385598711669,
      "step": 7120
    },
    {
      "epoch": 0.23766666666666666,
      "grad_norm": 32.75,
      "grad_norm_var": 8.709830729166667,
      "learning_rate": 0.0001,
      "loss": 8.5552,
      "loss/crossentropy": 2.188428722321987,
      "loss/hidden": 3.987890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2734973944723606,
      "step": 7130
    },
    {
      "epoch": 0.238,
      "grad_norm": 33.5,
      "grad_norm_var": 9.23125,
      "learning_rate": 0.0001,
      "loss": 8.6669,
      "loss/crossentropy": 2.163307761400938,
      "loss/hidden": 3.998046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26316353445872664,
      "step": 7140
    },
    {
      "epoch": 0.23833333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 7.6744140625,
      "learning_rate": 0.0001,
      "loss": 8.6865,
      "loss/crossentropy": 2.0473650604486466,
      "loss/hidden": 3.98984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2502355322241783,
      "step": 7150
    },
    {
      "epoch": 0.23866666666666667,
      "grad_norm": 37.25,
      "grad_norm_var": 6.209375,
      "learning_rate": 0.0001,
      "loss": 8.5554,
      "loss/crossentropy": 2.10597411096096,
      "loss/hidden": 3.9953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2646968217566609,
      "step": 7160
    },
    {
      "epoch": 0.239,
      "grad_norm": 32.5,
      "grad_norm_var": 7.327083333333333,
      "learning_rate": 0.0001,
      "loss": 8.5166,
      "loss/crossentropy": 2.2311090558767317,
      "loss/hidden": 3.971875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2651707552373409,
      "step": 7170
    },
    {
      "epoch": 0.23933333333333334,
      "grad_norm": 33.75,
      "grad_norm_var": 2.708268229166667,
      "learning_rate": 0.0001,
      "loss": 8.5943,
      "loss/crossentropy": 2.1325844526290894,
      "loss/hidden": 3.856640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25004746317863463,
      "step": 7180
    },
    {
      "epoch": 0.23966666666666667,
      "grad_norm": 33.0,
      "grad_norm_var": 5.72265625,
      "learning_rate": 0.0001,
      "loss": 8.5078,
      "loss/crossentropy": 2.127976506203413,
      "loss/hidden": 4.0015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25839042402803897,
      "step": 7190
    },
    {
      "epoch": 0.24,
      "grad_norm": 34.75,
      "grad_norm_var": 4.226822916666666,
      "learning_rate": 0.0001,
      "loss": 8.5393,
      "loss/crossentropy": 2.1524706527590753,
      "loss/hidden": 3.78359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24184909779578448,
      "step": 7200
    },
    {
      "epoch": 0.24033333333333334,
      "grad_norm": 38.0,
      "grad_norm_var": 24.615559895833332,
      "learning_rate": 0.0001,
      "loss": 8.7409,
      "loss/crossentropy": 2.0844357013702393,
      "loss/hidden": 4.113671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25061873607337476,
      "step": 7210
    },
    {
      "epoch": 0.24066666666666667,
      "grad_norm": 34.5,
      "grad_norm_var": 4.8791015625,
      "learning_rate": 0.0001,
      "loss": 8.5332,
      "loss/crossentropy": 2.2334757328033445,
      "loss/hidden": 3.786328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24229202494025232,
      "step": 7220
    },
    {
      "epoch": 0.241,
      "grad_norm": 39.75,
      "grad_norm_var": 5.398372395833333,
      "learning_rate": 0.0001,
      "loss": 8.6905,
      "loss/crossentropy": 2.095822374522686,
      "loss/hidden": 4.03359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.276114359125495,
      "step": 7230
    },
    {
      "epoch": 0.24133333333333334,
      "grad_norm": 33.5,
      "grad_norm_var": 6.189322916666667,
      "learning_rate": 0.0001,
      "loss": 8.621,
      "loss/crossentropy": 2.083872254192829,
      "loss/hidden": 3.843359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25903829988092186,
      "step": 7240
    },
    {
      "epoch": 0.24166666666666667,
      "grad_norm": 40.0,
      "grad_norm_var": 9.3556640625,
      "learning_rate": 0.0001,
      "loss": 8.8226,
      "loss/crossentropy": 2.1576643377542495,
      "loss/hidden": 3.93046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.277049720287323,
      "step": 7250
    },
    {
      "epoch": 0.242,
      "grad_norm": 46.0,
      "grad_norm_var": 42.713541666666664,
      "learning_rate": 0.0001,
      "loss": 8.5405,
      "loss/crossentropy": 2.1249560177326203,
      "loss/hidden": 3.844921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24358038194477558,
      "step": 7260
    },
    {
      "epoch": 0.24233333333333335,
      "grad_norm": 32.0,
      "grad_norm_var": 43.81666666666667,
      "learning_rate": 0.0001,
      "loss": 8.6632,
      "loss/crossentropy": 2.271902731060982,
      "loss/hidden": 3.877734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2662301120348275,
      "step": 7270
    },
    {
      "epoch": 0.24266666666666667,
      "grad_norm": 29.25,
      "grad_norm_var": 3.8811848958333335,
      "learning_rate": 0.0001,
      "loss": 8.4007,
      "loss/crossentropy": 2.037639981508255,
      "loss/hidden": 3.926953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2521992586553097,
      "step": 7280
    },
    {
      "epoch": 0.243,
      "grad_norm": 37.75,
      "grad_norm_var": 11.527018229166666,
      "learning_rate": 0.0001,
      "loss": 8.7671,
      "loss/crossentropy": 2.0688220985233783,
      "loss/hidden": 4.000390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2653772059828043,
      "step": 7290
    },
    {
      "epoch": 0.24333333333333335,
      "grad_norm": 34.75,
      "grad_norm_var": 9.0103515625,
      "learning_rate": 0.0001,
      "loss": 8.6682,
      "loss/crossentropy": 1.9946186635643244,
      "loss/hidden": 3.946875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2328943044412881,
      "step": 7300
    },
    {
      "epoch": 0.24366666666666667,
      "grad_norm": 31.5,
      "grad_norm_var": 7.376497395833334,
      "learning_rate": 0.0001,
      "loss": 8.5699,
      "loss/crossentropy": 2.139767034351826,
      "loss/hidden": 3.88828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2668099632486701,
      "step": 7310
    },
    {
      "epoch": 0.244,
      "grad_norm": 30.875,
      "grad_norm_var": 5.427018229166666,
      "learning_rate": 0.0001,
      "loss": 8.6389,
      "loss/crossentropy": 2.0648159228265284,
      "loss/hidden": 3.88359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2502809874713421,
      "step": 7320
    },
    {
      "epoch": 0.24433333333333335,
      "grad_norm": 31.25,
      "grad_norm_var": 7.09140625,
      "learning_rate": 0.0001,
      "loss": 8.6659,
      "loss/crossentropy": 2.106768397986889,
      "loss/hidden": 3.928125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2518464956432581,
      "step": 7330
    },
    {
      "epoch": 0.24466666666666667,
      "grad_norm": 31.75,
      "grad_norm_var": 11.3603515625,
      "learning_rate": 0.0001,
      "loss": 8.5392,
      "loss/crossentropy": 2.1911858722567557,
      "loss/hidden": 3.996484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26760652028024196,
      "step": 7340
    },
    {
      "epoch": 0.245,
      "grad_norm": 33.75,
      "grad_norm_var": 19.9259765625,
      "learning_rate": 0.0001,
      "loss": 8.5007,
      "loss/crossentropy": 2.066247297823429,
      "loss/hidden": 3.937109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2681329587474465,
      "step": 7350
    },
    {
      "epoch": 0.24533333333333332,
      "grad_norm": 28.75,
      "grad_norm_var": 3.015230290082031e+18,
      "learning_rate": 0.0001,
      "loss": 8.6882,
      "loss/crossentropy": 2.286055992543697,
      "loss/hidden": 3.84609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.262431076541543,
      "step": 7360
    },
    {
      "epoch": 0.24566666666666667,
      "grad_norm": 33.5,
      "grad_norm_var": 15.270247395833334,
      "learning_rate": 0.0001,
      "loss": 8.4911,
      "loss/crossentropy": 2.203142321109772,
      "loss/hidden": 4.007421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25816880762577055,
      "step": 7370
    },
    {
      "epoch": 0.246,
      "grad_norm": 31.25,
      "grad_norm_var": 6.605208333333334,
      "learning_rate": 0.0001,
      "loss": 8.5749,
      "loss/crossentropy": 2.168962088227272,
      "loss/hidden": 3.844140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24683325868099928,
      "step": 7380
    },
    {
      "epoch": 0.24633333333333332,
      "grad_norm": 29.125,
      "grad_norm_var": 8.370572916666667,
      "learning_rate": 0.0001,
      "loss": 8.6485,
      "loss/crossentropy": 2.201642544567585,
      "loss/hidden": 3.88984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25863207802176474,
      "step": 7390
    },
    {
      "epoch": 0.24666666666666667,
      "grad_norm": 31.5,
      "grad_norm_var": 3.2416015625,
      "learning_rate": 0.0001,
      "loss": 8.4782,
      "loss/crossentropy": 1.960936988890171,
      "loss/hidden": 3.831640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22650879565626383,
      "step": 7400
    },
    {
      "epoch": 0.247,
      "grad_norm": 38.25,
      "grad_norm_var": 5.086393229166666,
      "learning_rate": 0.0001,
      "loss": 8.6146,
      "loss/crossentropy": 2.148800623416901,
      "loss/hidden": 3.9265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27121419459581375,
      "step": 7410
    },
    {
      "epoch": 0.24733333333333332,
      "grad_norm": 32.25,
      "grad_norm_var": 4.398372395833333,
      "learning_rate": 0.0001,
      "loss": 8.5397,
      "loss/crossentropy": 2.1694126784801484,
      "loss/hidden": 3.891796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24342003595083953,
      "step": 7420
    },
    {
      "epoch": 0.24766666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 9.516666666666667,
      "learning_rate": 0.0001,
      "loss": 8.6136,
      "loss/crossentropy": 2.1182317078113555,
      "loss/hidden": 3.844921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24156781807541847,
      "step": 7430
    },
    {
      "epoch": 0.248,
      "grad_norm": 36.5,
      "grad_norm_var": 7.377018229166667,
      "learning_rate": 0.0001,
      "loss": 8.5314,
      "loss/crossentropy": 2.1088318437337876,
      "loss/hidden": 3.822265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.250948965921998,
      "step": 7440
    },
    {
      "epoch": 0.24833333333333332,
      "grad_norm": 34.25,
      "grad_norm_var": 3248.1872395833334,
      "learning_rate": 0.0001,
      "loss": 8.6694,
      "loss/crossentropy": 2.2178388088941574,
      "loss/hidden": 3.946875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25901649333536625,
      "step": 7450
    },
    {
      "epoch": 0.24866666666666667,
      "grad_norm": 31.125,
      "grad_norm_var": 3290.9358723958335,
      "learning_rate": 0.0001,
      "loss": 8.5781,
      "loss/crossentropy": 2.2698897421360016,
      "loss/hidden": 3.926171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2536152143031359,
      "step": 7460
    },
    {
      "epoch": 0.249,
      "grad_norm": 33.0,
      "grad_norm_var": 1772.1875,
      "learning_rate": 0.0001,
      "loss": 8.5832,
      "loss/crossentropy": 2.1621989846229552,
      "loss/hidden": 3.84609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24833030719310045,
      "step": 7470
    },
    {
      "epoch": 0.24933333333333332,
      "grad_norm": 39.25,
      "grad_norm_var": 2.814749738438492e+18,
      "learning_rate": 0.0001,
      "loss": 8.6171,
      "loss/crossentropy": 2.14983384013176,
      "loss/hidden": 4.019921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27834896706044676,
      "step": 7480
    },
    {
      "epoch": 0.24966666666666668,
      "grad_norm": 31.25,
      "grad_norm_var": 2.81474973868316e+18,
      "learning_rate": 0.0001,
      "loss": 8.6016,
      "loss/crossentropy": 2.168473194539547,
      "loss/hidden": 4.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29676152374595405,
      "step": 7490
    },
    {
      "epoch": 0.25,
      "grad_norm": 33.0,
      "grad_norm_var": 3567.3869140625,
      "learning_rate": 0.0001,
      "loss": 8.6921,
      "loss/crossentropy": 2.042189783602953,
      "loss/hidden": 3.898828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2364582633599639,
      "step": 7500
    },
    {
      "epoch": 0.25033333333333335,
      "grad_norm": 30.25,
      "grad_norm_var": 5.686458333333333,
      "learning_rate": 0.0001,
      "loss": 8.6958,
      "loss/crossentropy": 2.062736430764198,
      "loss/hidden": 3.84609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.240386860165745,
      "step": 7510
    },
    {
      "epoch": 0.25066666666666665,
      "grad_norm": 31.375,
      "grad_norm_var": 17.955989583333334,
      "learning_rate": 0.0001,
      "loss": 8.515,
      "loss/crossentropy": 2.0180068641901014,
      "loss/hidden": 3.877734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23197599165141583,
      "step": 7520
    },
    {
      "epoch": 0.251,
      "grad_norm": 33.75,
      "grad_norm_var": 2.0817889033199114e+18,
      "learning_rate": 0.0001,
      "loss": 8.5997,
      "loss/crossentropy": 2.106365057826042,
      "loss/hidden": 3.99921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24268077537417412,
      "step": 7530
    },
    {
      "epoch": 0.25133333333333335,
      "grad_norm": 32.5,
      "grad_norm_var": 8.407291666666667,
      "learning_rate": 0.0001,
      "loss": 8.4314,
      "loss/crossentropy": 1.9716456033289433,
      "loss/hidden": 3.909375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2563434375450015,
      "step": 7540
    },
    {
      "epoch": 0.25166666666666665,
      "grad_norm": 30.375,
      "grad_norm_var": 9.754166666666666,
      "learning_rate": 0.0001,
      "loss": 8.4357,
      "loss/crossentropy": 2.214118207991123,
      "loss/hidden": 3.816796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2364793760702014,
      "step": 7550
    },
    {
      "epoch": 0.252,
      "grad_norm": 32.0,
      "grad_norm_var": 11.27265625,
      "learning_rate": 0.0001,
      "loss": 8.5187,
      "loss/crossentropy": 2.0577072143554687,
      "loss/hidden": 3.916015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2660173770040274,
      "step": 7560
    },
    {
      "epoch": 0.25233333333333335,
      "grad_norm": 34.25,
      "grad_norm_var": 6.864518229166666,
      "learning_rate": 0.0001,
      "loss": 8.5382,
      "loss/crossentropy": 2.28112398609519,
      "loss/hidden": 3.882421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2548609297722578,
      "step": 7570
    },
    {
      "epoch": 0.25266666666666665,
      "grad_norm": 31.0,
      "grad_norm_var": 7.536458333333333,
      "learning_rate": 0.0001,
      "loss": 8.5838,
      "loss/crossentropy": 2.148515190184116,
      "loss/hidden": 3.8375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24244300834834576,
      "step": 7580
    },
    {
      "epoch": 0.253,
      "grad_norm": 32.0,
      "grad_norm_var": 74.91087239583334,
      "learning_rate": 0.0001,
      "loss": 8.5155,
      "loss/crossentropy": 2.1178071200847626,
      "loss/hidden": 3.883984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25539283007383345,
      "step": 7590
    },
    {
      "epoch": 0.25333333333333335,
      "grad_norm": 34.75,
      "grad_norm_var": 7.797330729166666,
      "learning_rate": 0.0001,
      "loss": 8.5274,
      "loss/crossentropy": 2.0491638466715814,
      "loss/hidden": 3.93828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24984916690737008,
      "step": 7600
    },
    {
      "epoch": 0.25366666666666665,
      "grad_norm": 34.0,
      "grad_norm_var": 4.676497395833334,
      "learning_rate": 0.0001,
      "loss": 8.4896,
      "loss/crossentropy": 1.989129790663719,
      "loss/hidden": 3.969921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2540574911981821,
      "step": 7610
    },
    {
      "epoch": 0.254,
      "grad_norm": 35.0,
      "grad_norm_var": 10.124934895833333,
      "learning_rate": 0.0001,
      "loss": 8.5499,
      "loss/crossentropy": 2.1711443960666656,
      "loss/hidden": 3.880859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2434135077521205,
      "step": 7620
    },
    {
      "epoch": 0.25433333333333336,
      "grad_norm": 31.75,
      "grad_norm_var": 10.613541666666666,
      "learning_rate": 0.0001,
      "loss": 8.4787,
      "loss/crossentropy": 2.111149328947067,
      "loss/hidden": 4.075,
      "loss/jsd": 0.0,
      "loss/logits": 0.28135603088885547,
      "step": 7630
    },
    {
      "epoch": 0.25466666666666665,
      "grad_norm": 32.25,
      "grad_norm_var": 4.476041666666666,
      "learning_rate": 0.0001,
      "loss": 8.5342,
      "loss/crossentropy": 2.0875839471817015,
      "loss/hidden": 3.80234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2278506338596344,
      "step": 7640
    },
    {
      "epoch": 0.255,
      "grad_norm": 31.75,
      "grad_norm_var": 2.718489583333333,
      "learning_rate": 0.0001,
      "loss": 8.5779,
      "loss/crossentropy": 2.2961817413568495,
      "loss/hidden": 3.91171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2761024903506041,
      "step": 7650
    },
    {
      "epoch": 0.25533333333333336,
      "grad_norm": 30.875,
      "grad_norm_var": 4.695572916666666,
      "learning_rate": 0.0001,
      "loss": 8.4936,
      "loss/crossentropy": 2.064536126330495,
      "loss/hidden": 4.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2472051708959043,
      "step": 7660
    },
    {
      "epoch": 0.25566666666666665,
      "grad_norm": 31.5,
      "grad_norm_var": 31.70390625,
      "learning_rate": 0.0001,
      "loss": 8.5492,
      "loss/crossentropy": 2.0761756777763365,
      "loss/hidden": 3.91953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2548640869557858,
      "step": 7670
    },
    {
      "epoch": 0.256,
      "grad_norm": 31.75,
      "grad_norm_var": 11.212239583333334,
      "learning_rate": 0.0001,
      "loss": 8.5113,
      "loss/crossentropy": 2.1705673079937697,
      "loss/hidden": 3.92109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24495558133348821,
      "step": 7680
    },
    {
      "epoch": 0.25633333333333336,
      "grad_norm": 35.0,
      "grad_norm_var": 5.424739583333333,
      "learning_rate": 0.0001,
      "loss": 8.4703,
      "loss/crossentropy": 2.2372745871543884,
      "loss/hidden": 3.875390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24880910199135542,
      "step": 7690
    },
    {
      "epoch": 0.25666666666666665,
      "grad_norm": 31.375,
      "grad_norm_var": 4.406705729166666,
      "learning_rate": 0.0001,
      "loss": 8.4214,
      "loss/crossentropy": 2.114253217726946,
      "loss/hidden": 3.767578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23989613354206085,
      "step": 7700
    },
    {
      "epoch": 0.257,
      "grad_norm": 32.5,
      "grad_norm_var": 5.330989583333333,
      "learning_rate": 0.0001,
      "loss": 8.5299,
      "loss/crossentropy": 2.1180673211812975,
      "loss/hidden": 3.901171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26575036309659483,
      "step": 7710
    },
    {
      "epoch": 0.25733333333333336,
      "grad_norm": 29.75,
      "grad_norm_var": 7.863541666666666,
      "learning_rate": 0.0001,
      "loss": 8.5739,
      "loss/crossentropy": 2.1078746899962426,
      "loss/hidden": 3.819140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.235656151548028,
      "step": 7720
    },
    {
      "epoch": 0.25766666666666665,
      "grad_norm": 32.5,
      "grad_norm_var": 8.870572916666667,
      "learning_rate": 0.0001,
      "loss": 8.5049,
      "loss/crossentropy": 2.2084743842482566,
      "loss/hidden": 3.92265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24384659044444562,
      "step": 7730
    },
    {
      "epoch": 0.258,
      "grad_norm": 34.25,
      "grad_norm_var": 2.2997395833333334,
      "learning_rate": 0.0001,
      "loss": 8.3794,
      "loss/crossentropy": 2.1690520867705345,
      "loss/hidden": 3.808203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2447241246700287,
      "step": 7740
    },
    {
      "epoch": 0.25833333333333336,
      "grad_norm": 34.5,
      "grad_norm_var": 7.211458333333334,
      "learning_rate": 0.0001,
      "loss": 8.566,
      "loss/crossentropy": 2.237781625241041,
      "loss/hidden": 3.851171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23708969578146935,
      "step": 7750
    },
    {
      "epoch": 0.25866666666666666,
      "grad_norm": 31.875,
      "grad_norm_var": 51.203125,
      "learning_rate": 0.0001,
      "loss": 8.4896,
      "loss/crossentropy": 2.0946034505963325,
      "loss/hidden": 3.991796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25754191167652607,
      "step": 7760
    },
    {
      "epoch": 0.259,
      "grad_norm": 30.375,
      "grad_norm_var": 5.221875,
      "learning_rate": 0.0001,
      "loss": 8.5675,
      "loss/crossentropy": 2.2402331814169885,
      "loss/hidden": 3.866015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2628116441890597,
      "step": 7770
    },
    {
      "epoch": 0.25933333333333336,
      "grad_norm": 40.25,
      "grad_norm_var": 17.0900390625,
      "learning_rate": 0.0001,
      "loss": 8.5823,
      "loss/crossentropy": 2.1165684029459952,
      "loss/hidden": 3.88125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2519789934158325,
      "step": 7780
    },
    {
      "epoch": 0.25966666666666666,
      "grad_norm": 33.75,
      "grad_norm_var": 8.1728515625,
      "learning_rate": 0.0001,
      "loss": 8.5378,
      "loss/crossentropy": 2.0959367021918296,
      "loss/hidden": 3.931640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23852321952581407,
      "step": 7790
    },
    {
      "epoch": 0.26,
      "grad_norm": 36.5,
      "grad_norm_var": 4.790625,
      "learning_rate": 0.0001,
      "loss": 8.3399,
      "loss/crossentropy": 1.9469283685088157,
      "loss/hidden": 3.78046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22438753712922335,
      "step": 7800
    },
    {
      "epoch": 0.26033333333333336,
      "grad_norm": 32.25,
      "grad_norm_var": 4.2625,
      "learning_rate": 0.0001,
      "loss": 8.5059,
      "loss/crossentropy": 2.1072940029203893,
      "loss/hidden": 3.945703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2441211288794875,
      "step": 7810
    },
    {
      "epoch": 0.26066666666666666,
      "grad_norm": 29.5,
      "grad_norm_var": 17.897330729166665,
      "learning_rate": 0.0001,
      "loss": 8.4184,
      "loss/crossentropy": 1.8887931071221828,
      "loss/hidden": 3.984765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24000756442546844,
      "step": 7820
    },
    {
      "epoch": 0.261,
      "grad_norm": 33.25,
      "grad_norm_var": 21.8119140625,
      "learning_rate": 0.0001,
      "loss": 8.4814,
      "loss/crossentropy": 2.1927064463496206,
      "loss/hidden": 3.80546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23618043400347233,
      "step": 7830
    },
    {
      "epoch": 0.2613333333333333,
      "grad_norm": 37.75,
      "grad_norm_var": 12.579622395833333,
      "learning_rate": 0.0001,
      "loss": 8.5882,
      "loss/crossentropy": 2.0585607342422008,
      "loss/hidden": 3.861328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24375837668776512,
      "step": 7840
    },
    {
      "epoch": 0.26166666666666666,
      "grad_norm": 33.0,
      "grad_norm_var": 6.588997395833333,
      "learning_rate": 0.0001,
      "loss": 8.5555,
      "loss/crossentropy": 2.0930290199816226,
      "loss/hidden": 3.85234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2372116858139634,
      "step": 7850
    },
    {
      "epoch": 0.262,
      "grad_norm": 32.75,
      "grad_norm_var": 4.052018229166666,
      "learning_rate": 0.0001,
      "loss": 8.5284,
      "loss/crossentropy": 2.2643882423639297,
      "loss/hidden": 3.848046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2545361390337348,
      "step": 7860
    },
    {
      "epoch": 0.2623333333333333,
      "grad_norm": 37.25,
      "grad_norm_var": 32.57265625,
      "learning_rate": 0.0001,
      "loss": 8.4368,
      "loss/crossentropy": 2.151304465532303,
      "loss/hidden": 3.903515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2559200949966908,
      "step": 7870
    },
    {
      "epoch": 0.26266666666666666,
      "grad_norm": 32.75,
      "grad_norm_var": 9.16640625,
      "learning_rate": 0.0001,
      "loss": 8.6239,
      "loss/crossentropy": 2.215903551876545,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2483787966892123,
      "step": 7880
    },
    {
      "epoch": 0.263,
      "grad_norm": 31.375,
      "grad_norm_var": 5.636393229166667,
      "learning_rate": 0.0001,
      "loss": 8.522,
      "loss/crossentropy": 2.2514882028102874,
      "loss/hidden": 3.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2960167687386274,
      "step": 7890
    },
    {
      "epoch": 0.2633333333333333,
      "grad_norm": 30.75,
      "grad_norm_var": 4.056184895833334,
      "learning_rate": 0.0001,
      "loss": 8.4697,
      "loss/crossentropy": 2.1326026201248167,
      "loss/hidden": 4.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2860325377434492,
      "step": 7900
    },
    {
      "epoch": 0.26366666666666666,
      "grad_norm": 31.75,
      "grad_norm_var": 3.7244140625,
      "learning_rate": 0.0001,
      "loss": 8.6586,
      "loss/crossentropy": 2.2379645466804505,
      "loss/hidden": 3.812109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24608665630221366,
      "step": 7910
    },
    {
      "epoch": 0.264,
      "grad_norm": 32.5,
      "grad_norm_var": 6.681184895833334,
      "learning_rate": 0.0001,
      "loss": 8.5366,
      "loss/crossentropy": 2.066775370389223,
      "loss/hidden": 4.01796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2635978292673826,
      "step": 7920
    },
    {
      "epoch": 0.2643333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 6.824934895833334,
      "learning_rate": 0.0001,
      "loss": 8.5181,
      "loss/crossentropy": 2.0588886007666587,
      "loss/hidden": 3.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2531863532960415,
      "step": 7930
    },
    {
      "epoch": 0.26466666666666666,
      "grad_norm": 29.25,
      "grad_norm_var": 2.8147497390536566e+18,
      "learning_rate": 0.0001,
      "loss": 8.5683,
      "loss/crossentropy": 2.1350580543279647,
      "loss/hidden": 3.85703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24998535066843033,
      "step": 7940
    },
    {
      "epoch": 0.265,
      "grad_norm": 34.25,
      "grad_norm_var": 2.814749738836951e+18,
      "learning_rate": 0.0001,
      "loss": 8.5132,
      "loss/crossentropy": 2.0762300439178945,
      "loss/hidden": 3.84609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2441089889034629,
      "step": 7950
    },
    {
      "epoch": 0.2653333333333333,
      "grad_norm": 31.875,
      "grad_norm_var": 8.36640625,
      "learning_rate": 0.0001,
      "loss": 8.4256,
      "loss/crossentropy": 2.1040103793144227,
      "loss/hidden": 3.84296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2428693912923336,
      "step": 7960
    },
    {
      "epoch": 0.26566666666666666,
      "grad_norm": 29.375,
      "grad_norm_var": 8.192122395833334,
      "learning_rate": 0.0001,
      "loss": 8.6841,
      "loss/crossentropy": 2.0118587724864483,
      "loss/hidden": 3.854296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21796635556966065,
      "step": 7970
    },
    {
      "epoch": 0.266,
      "grad_norm": 31.625,
      "grad_norm_var": 7.3525390625,
      "learning_rate": 0.0001,
      "loss": 8.4692,
      "loss/crossentropy": 2.134692121297121,
      "loss/hidden": 3.940625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24534992277622222,
      "step": 7980
    },
    {
      "epoch": 0.2663333333333333,
      "grad_norm": 35.0,
      "grad_norm_var": 4.893684895833333,
      "learning_rate": 0.0001,
      "loss": 8.5476,
      "loss/crossentropy": 2.161470866203308,
      "loss/hidden": 4.1234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2858205262571573,
      "step": 7990
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 44.25,
      "grad_norm_var": 24.559830729166666,
      "learning_rate": 0.0001,
      "loss": 8.5115,
      "loss/crossentropy": 1.9794396072626115,
      "loss/hidden": 3.883984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.253316623903811,
      "step": 8000
    },
    {
      "epoch": 0.267,
      "grad_norm": 34.0,
      "grad_norm_var": 22.160416666666666,
      "learning_rate": 0.0001,
      "loss": 8.5737,
      "loss/crossentropy": 2.203532671928406,
      "loss/hidden": 3.905859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26553509533405306,
      "step": 8010
    },
    {
      "epoch": 0.2673333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 9.372916666666667,
      "learning_rate": 0.0001,
      "loss": 8.5596,
      "loss/crossentropy": 2.116582728922367,
      "loss/hidden": 3.955078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28444691337645056,
      "step": 8020
    },
    {
      "epoch": 0.26766666666666666,
      "grad_norm": 33.0,
      "grad_norm_var": 4.118489583333333,
      "learning_rate": 0.0001,
      "loss": 8.7085,
      "loss/crossentropy": 2.136409956216812,
      "loss/hidden": 3.94609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26452013887465,
      "step": 8030
    },
    {
      "epoch": 0.268,
      "grad_norm": 34.25,
      "grad_norm_var": 5.120572916666666,
      "learning_rate": 0.0001,
      "loss": 8.7193,
      "loss/crossentropy": 2.17041220664978,
      "loss/hidden": 3.9,
      "loss/jsd": 0.0,
      "loss/logits": 0.25961695313453675,
      "step": 8040
    },
    {
      "epoch": 0.2683333333333333,
      "grad_norm": 38.75,
      "grad_norm_var": 11.583072916666667,
      "learning_rate": 0.0001,
      "loss": 8.55,
      "loss/crossentropy": 2.1484374403953552,
      "loss/hidden": 3.784375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2425002339296043,
      "step": 8050
    },
    {
      "epoch": 0.26866666666666666,
      "grad_norm": 32.0,
      "grad_norm_var": 10.539583333333333,
      "learning_rate": 0.0001,
      "loss": 8.4497,
      "loss/crossentropy": 2.201520799845457,
      "loss/hidden": 3.866796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23861566837877035,
      "step": 8060
    },
    {
      "epoch": 0.269,
      "grad_norm": 33.75,
      "grad_norm_var": 7.472916666666666,
      "learning_rate": 0.0001,
      "loss": 8.6457,
      "loss/crossentropy": 2.260037848353386,
      "loss/hidden": 3.873828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2488136703148484,
      "step": 8070
    },
    {
      "epoch": 0.2693333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 4.987239583333333,
      "learning_rate": 0.0001,
      "loss": 8.5122,
      "loss/crossentropy": 2.239154724776745,
      "loss/hidden": 3.805078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24010765701532363,
      "step": 8080
    },
    {
      "epoch": 0.26966666666666667,
      "grad_norm": 38.0,
      "grad_norm_var": 4.78515625,
      "learning_rate": 0.0001,
      "loss": 8.5795,
      "loss/crossentropy": 2.123927664756775,
      "loss/hidden": 4.057421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27356666754931214,
      "step": 8090
    },
    {
      "epoch": 0.27,
      "grad_norm": 29.75,
      "grad_norm_var": 2.6757714700654346e+18,
      "learning_rate": 0.0001,
      "loss": 8.5442,
      "loss/crossentropy": 2.1999975204467774,
      "loss/hidden": 3.831640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2607791792601347,
      "step": 8100
    },
    {
      "epoch": 0.2703333333333333,
      "grad_norm": 52.25,
      "grad_norm_var": 2.675771468504629e+18,
      "learning_rate": 0.0001,
      "loss": 8.5682,
      "loss/crossentropy": 2.1693030931055546,
      "loss/hidden": 3.843359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.251168143004179,
      "step": 8110
    },
    {
      "epoch": 0.27066666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 31.667708333333334,
      "learning_rate": 0.0001,
      "loss": 8.3905,
      "loss/crossentropy": 2.1287291169166567,
      "loss/hidden": 3.902734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24765251912176608,
      "step": 8120
    },
    {
      "epoch": 0.271,
      "grad_norm": 30.0,
      "grad_norm_var": 8.573958333333334,
      "learning_rate": 0.0001,
      "loss": 8.4201,
      "loss/crossentropy": 2.0576461493968963,
      "loss/hidden": 3.87734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.241207036934793,
      "step": 8130
    },
    {
      "epoch": 0.2713333333333333,
      "grad_norm": 43.75,
      "grad_norm_var": 2.7309405654549356e+18,
      "learning_rate": 0.0001,
      "loss": 8.4172,
      "loss/crossentropy": 2.0151774257421495,
      "loss/hidden": 3.844921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2428217800334096,
      "step": 8140
    },
    {
      "epoch": 0.27166666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 2.7309405653723075e+18,
      "learning_rate": 0.0001,
      "loss": 8.5564,
      "loss/crossentropy": 2.226572999358177,
      "loss/hidden": 3.91328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26639420036226513,
      "step": 8150
    },
    {
      "epoch": 0.272,
      "grad_norm": 31.5,
      "grad_norm_var": 1.8499348958333333,
      "learning_rate": 0.0001,
      "loss": 8.5586,
      "loss/crossentropy": 2.336693507432938,
      "loss/hidden": 4.00859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28926637172698977,
      "step": 8160
    },
    {
      "epoch": 0.2723333333333333,
      "grad_norm": 31.75,
      "grad_norm_var": 2.5447265625,
      "learning_rate": 0.0001,
      "loss": 8.4725,
      "loss/crossentropy": 2.2132105618715285,
      "loss/hidden": 3.820703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24436241313815116,
      "step": 8170
    },
    {
      "epoch": 0.27266666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 2.330894253998281e+18,
      "learning_rate": 0.0001,
      "loss": 8.5414,
      "loss/crossentropy": 1.975562959909439,
      "loss/hidden": 3.817578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22787413820624353,
      "step": 8180
    },
    {
      "epoch": 0.273,
      "grad_norm": 31.875,
      "grad_norm_var": 40.270833333333336,
      "learning_rate": 0.0001,
      "loss": 8.4846,
      "loss/crossentropy": 2.0327411964535713,
      "loss/hidden": 3.84453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.242176865786314,
      "step": 8190
    },
    {
      "epoch": 0.2733333333333333,
      "grad_norm": 29.0,
      "grad_norm_var": 50.523372395833334,
      "learning_rate": 0.0001,
      "loss": 8.4559,
      "loss/crossentropy": 2.1319633327424525,
      "loss/hidden": 3.97421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2501418372616172,
      "step": 8200
    },
    {
      "epoch": 0.27366666666666667,
      "grad_norm": 34.0,
      "grad_norm_var": 18.219205729166667,
      "learning_rate": 0.0001,
      "loss": 8.5216,
      "loss/crossentropy": 2.2018288552761076,
      "loss/hidden": 3.9546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2552491381764412,
      "step": 8210
    },
    {
      "epoch": 0.274,
      "grad_norm": 33.5,
      "grad_norm_var": 4.381705729166667,
      "learning_rate": 0.0001,
      "loss": 8.4802,
      "loss/crossentropy": 2.0432650595903397,
      "loss/hidden": 3.86640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2392191395163536,
      "step": 8220
    },
    {
      "epoch": 0.2743333333333333,
      "grad_norm": 30.25,
      "grad_norm_var": 2.1,
      "learning_rate": 0.0001,
      "loss": 8.4893,
      "loss/crossentropy": 2.1175171703100206,
      "loss/hidden": 3.949609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26016080360859634,
      "step": 8230
    },
    {
      "epoch": 0.27466666666666667,
      "grad_norm": 32.0,
      "grad_norm_var": 4.23125,
      "learning_rate": 0.0001,
      "loss": 8.4556,
      "loss/crossentropy": 2.103234487399459,
      "loss/hidden": 3.947265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24362556543201208,
      "step": 8240
    },
    {
      "epoch": 0.275,
      "grad_norm": 29.5,
      "grad_norm_var": 1.3207509407140326e+18,
      "learning_rate": 0.0001,
      "loss": 8.3986,
      "loss/crossentropy": 2.1267191670835017,
      "loss/hidden": 3.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24572798358276488,
      "step": 8250
    },
    {
      "epoch": 0.2753333333333333,
      "grad_norm": 29.0,
      "grad_norm_var": 6.517643229166667,
      "learning_rate": 0.0001,
      "loss": 8.4968,
      "loss/crossentropy": 2.0798249572515486,
      "loss/hidden": 3.844140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23399676829576493,
      "step": 8260
    },
    {
      "epoch": 0.27566666666666667,
      "grad_norm": 33.75,
      "grad_norm_var": 5.4759765625,
      "learning_rate": 0.0001,
      "loss": 8.4268,
      "loss/crossentropy": 2.0175932213664054,
      "loss/hidden": 3.88203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2511680208146572,
      "step": 8270
    },
    {
      "epoch": 0.276,
      "grad_norm": 33.25,
      "grad_norm_var": 8.170247395833334,
      "learning_rate": 0.0001,
      "loss": 8.4686,
      "loss/crossentropy": 2.050298312306404,
      "loss/hidden": 3.818359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24749082382768392,
      "step": 8280
    },
    {
      "epoch": 0.2763333333333333,
      "grad_norm": 46.5,
      "grad_norm_var": 2.2546849066262026e+18,
      "learning_rate": 0.0001,
      "loss": 8.5837,
      "loss/crossentropy": 2.107571153342724,
      "loss/hidden": 3.908984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24962719343602657,
      "step": 8290
    },
    {
      "epoch": 0.27666666666666667,
      "grad_norm": 31.625,
      "grad_norm_var": 2.2546849069640538e+18,
      "learning_rate": 0.0001,
      "loss": 8.4953,
      "loss/crossentropy": 2.1752505511045457,
      "loss/hidden": 3.854296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24640031829476355,
      "step": 8300
    },
    {
      "epoch": 0.277,
      "grad_norm": 31.25,
      "grad_norm_var": 7.98515625,
      "learning_rate": 0.0001,
      "loss": 8.5105,
      "loss/crossentropy": 2.1649673506617546,
      "loss/hidden": 3.9171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24632014315575362,
      "step": 8310
    },
    {
      "epoch": 0.2773333333333333,
      "grad_norm": 36.25,
      "grad_norm_var": 5.1103515625,
      "learning_rate": 0.0001,
      "loss": 8.6269,
      "loss/crossentropy": 2.1055419132113458,
      "loss/hidden": 3.809375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24666682127863168,
      "step": 8320
    },
    {
      "epoch": 0.2776666666666667,
      "grad_norm": 35.25,
      "grad_norm_var": 4.3712890625,
      "learning_rate": 0.0001,
      "loss": 8.5265,
      "loss/crossentropy": 2.051154574751854,
      "loss/hidden": 4.063671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2739197164773941,
      "step": 8330
    },
    {
      "epoch": 0.278,
      "grad_norm": 27.375,
      "grad_norm_var": 4.311458333333333,
      "learning_rate": 0.0001,
      "loss": 8.467,
      "loss/crossentropy": 1.931150709837675,
      "loss/hidden": 3.9625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26600636430084706,
      "step": 8340
    },
    {
      "epoch": 0.2783333333333333,
      "grad_norm": 41.25,
      "grad_norm_var": 31.12265625,
      "learning_rate": 0.0001,
      "loss": 8.4761,
      "loss/crossentropy": 2.0970492526888846,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.2257708402350545,
      "step": 8350
    },
    {
      "epoch": 0.2786666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 3.313593760837691e+18,
      "learning_rate": 0.0001,
      "loss": 8.5959,
      "loss/crossentropy": 2.107315970212221,
      "loss/hidden": 3.95546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2386183949187398,
      "step": 8360
    },
    {
      "epoch": 0.279,
      "grad_norm": 31.25,
      "grad_norm_var": 3.313593762134675e+18,
      "learning_rate": 0.0001,
      "loss": 8.5496,
      "loss/crossentropy": 2.1075058460235594,
      "loss/hidden": 3.875390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25149064473807814,
      "step": 8370
    },
    {
      "epoch": 0.2793333333333333,
      "grad_norm": 36.25,
      "grad_norm_var": 20.053059895833332,
      "learning_rate": 0.0001,
      "loss": 8.5338,
      "loss/crossentropy": 2.059878170490265,
      "loss/hidden": 3.878515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23977196607738732,
      "step": 8380
    },
    {
      "epoch": 0.2796666666666667,
      "grad_norm": 30.875,
      "grad_norm_var": 19.945768229166667,
      "learning_rate": 0.0001,
      "loss": 8.5962,
      "loss/crossentropy": 2.052942344546318,
      "loss/hidden": 3.8734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24317781031131744,
      "step": 8390
    },
    {
      "epoch": 0.28,
      "grad_norm": 30.25,
      "grad_norm_var": 17.1150390625,
      "learning_rate": 0.0001,
      "loss": 8.4453,
      "loss/crossentropy": 2.103861276805401,
      "loss/hidden": 3.9421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2519053351134062,
      "step": 8400
    },
    {
      "epoch": 0.2803333333333333,
      "grad_norm": 31.75,
      "grad_norm_var": 16.060872395833332,
      "learning_rate": 0.0001,
      "loss": 8.4694,
      "loss/crossentropy": 2.0992368295788766,
      "loss/hidden": 3.91484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2527425540611148,
      "step": 8410
    },
    {
      "epoch": 0.2806666666666667,
      "grad_norm": 30.625,
      "grad_norm_var": 1.9884765625,
      "learning_rate": 0.0001,
      "loss": 8.4347,
      "loss/crossentropy": 2.264920949935913,
      "loss/hidden": 4.038671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27555460929870607,
      "step": 8420
    },
    {
      "epoch": 0.281,
      "grad_norm": 32.25,
      "grad_norm_var": 1.3729166666666666,
      "learning_rate": 0.0001,
      "loss": 8.4686,
      "loss/crossentropy": 2.0547826454043387,
      "loss/hidden": 3.818359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2389751397073269,
      "step": 8430
    },
    {
      "epoch": 0.2813333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 3.923958333333333,
      "learning_rate": 0.0001,
      "loss": 8.4972,
      "loss/crossentropy": 2.141887503862381,
      "loss/hidden": 3.865234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23841603249311447,
      "step": 8440
    },
    {
      "epoch": 0.2816666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 5.348958333333333,
      "learning_rate": 0.0001,
      "loss": 8.5568,
      "loss/crossentropy": 2.070135848224163,
      "loss/hidden": 3.938671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2530257642269135,
      "step": 8450
    },
    {
      "epoch": 0.282,
      "grad_norm": 28.75,
      "grad_norm_var": 7.098372395833334,
      "learning_rate": 0.0001,
      "loss": 8.4062,
      "loss/crossentropy": 2.1277823865413668,
      "loss/hidden": 3.954296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25204644426703454,
      "step": 8460
    },
    {
      "epoch": 0.2823333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 4.593489583333334,
      "learning_rate": 0.0001,
      "loss": 8.4317,
      "loss/crossentropy": 2.169590988755226,
      "loss/hidden": 3.957421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26035118848085403,
      "step": 8470
    },
    {
      "epoch": 0.2826666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 3.678580729166667,
      "learning_rate": 0.0001,
      "loss": 8.4946,
      "loss/crossentropy": 2.287361499667168,
      "loss/hidden": 3.77109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23725899122655392,
      "step": 8480
    },
    {
      "epoch": 0.283,
      "grad_norm": 54.25,
      "grad_norm_var": 35.12265625,
      "learning_rate": 0.0001,
      "loss": 8.5028,
      "loss/crossentropy": 2.078622847050428,
      "loss/hidden": 3.809375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2394928558729589,
      "step": 8490
    },
    {
      "epoch": 0.2833333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 35.994791666666664,
      "learning_rate": 0.0001,
      "loss": 8.3967,
      "loss/crossentropy": 1.993205615878105,
      "loss/hidden": 3.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25120790507644414,
      "step": 8500
    },
    {
      "epoch": 0.2836666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 54.930989583333336,
      "learning_rate": 0.0001,
      "loss": 8.4862,
      "loss/crossentropy": 2.1012352854013443,
      "loss/hidden": 4.03984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26620072200894357,
      "step": 8510
    },
    {
      "epoch": 0.284,
      "grad_norm": 32.25,
      "grad_norm_var": 53.98098958333333,
      "learning_rate": 0.0001,
      "loss": 8.4943,
      "loss/crossentropy": 2.0601254284381865,
      "loss/hidden": 3.88046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24300396777689456,
      "step": 8520
    },
    {
      "epoch": 0.2843333333333333,
      "grad_norm": 45.75,
      "grad_norm_var": 19.379622395833334,
      "learning_rate": 0.0001,
      "loss": 8.5667,
      "loss/crossentropy": 2.150593836605549,
      "loss/hidden": 3.97578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2611148880794644,
      "step": 8530
    },
    {
      "epoch": 0.2846666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 17.92890625,
      "learning_rate": 0.0001,
      "loss": 8.5768,
      "loss/crossentropy": 2.158891648054123,
      "loss/hidden": 3.895703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2555501349270344,
      "step": 8540
    },
    {
      "epoch": 0.285,
      "grad_norm": 30.75,
      "grad_norm_var": 6.314583333333333,
      "learning_rate": 0.0001,
      "loss": 8.4415,
      "loss/crossentropy": 2.1268053114414216,
      "loss/hidden": 3.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2675272192806005,
      "step": 8550
    },
    {
      "epoch": 0.2853333333333333,
      "grad_norm": 30.125,
      "grad_norm_var": 5.924739583333333,
      "learning_rate": 0.0001,
      "loss": 8.3905,
      "loss/crossentropy": 1.8700345799326896,
      "loss/hidden": 3.9625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22793399412184953,
      "step": 8560
    },
    {
      "epoch": 0.2856666666666667,
      "grad_norm": 34.75,
      "grad_norm_var": 28.47265625,
      "learning_rate": 0.0001,
      "loss": 8.5967,
      "loss/crossentropy": 2.2868270367383956,
      "loss/hidden": 3.873046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2460212778300047,
      "step": 8570
    },
    {
      "epoch": 0.286,
      "grad_norm": 31.375,
      "grad_norm_var": 25.4125,
      "learning_rate": 0.0001,
      "loss": 8.5052,
      "loss/crossentropy": 1.9612272754311562,
      "loss/hidden": 4.025,
      "loss/jsd": 0.0,
      "loss/logits": 0.24744862429797648,
      "step": 8580
    },
    {
      "epoch": 0.28633333333333333,
      "grad_norm": 31.875,
      "grad_norm_var": 19.161458333333332,
      "learning_rate": 0.0001,
      "loss": 8.5026,
      "loss/crossentropy": 1.9540777966380118,
      "loss/hidden": 3.840625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22912114206701517,
      "step": 8590
    },
    {
      "epoch": 0.2866666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 1.7705729166666666,
      "learning_rate": 0.0001,
      "loss": 8.4321,
      "loss/crossentropy": 2.183373187482357,
      "loss/hidden": 3.820703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24152661189436914,
      "step": 8600
    },
    {
      "epoch": 0.287,
      "grad_norm": 39.0,
      "grad_norm_var": 14.377018229166667,
      "learning_rate": 0.0001,
      "loss": 8.6251,
      "loss/crossentropy": 2.0541095778346063,
      "loss/hidden": 4.001953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27750074546784165,
      "step": 8610
    },
    {
      "epoch": 0.28733333333333333,
      "grad_norm": 30.625,
      "grad_norm_var": 21.0462890625,
      "learning_rate": 0.0001,
      "loss": 8.4404,
      "loss/crossentropy": 2.1556227087974547,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23535772711038588,
      "step": 8620
    },
    {
      "epoch": 0.2876666666666667,
      "grad_norm": 31.625,
      "grad_norm_var": 6.3337890625,
      "learning_rate": 0.0001,
      "loss": 8.5323,
      "loss/crossentropy": 2.2881136484444142,
      "loss/hidden": 3.823046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26564789917320014,
      "step": 8630
    },
    {
      "epoch": 0.288,
      "grad_norm": 29.875,
      "grad_norm_var": 5.957747395833334,
      "learning_rate": 0.0001,
      "loss": 8.4478,
      "loss/crossentropy": 2.1415953427553176,
      "loss/hidden": 3.861328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24978371188044549,
      "step": 8640
    },
    {
      "epoch": 0.28833333333333333,
      "grad_norm": 32.75,
      "grad_norm_var": 8.3916015625,
      "learning_rate": 0.0001,
      "loss": 8.4509,
      "loss/crossentropy": 2.0754496946930887,
      "loss/hidden": 3.883203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2334285033866763,
      "step": 8650
    },
    {
      "epoch": 0.2886666666666667,
      "grad_norm": 39.0,
      "grad_norm_var": 12.662239583333333,
      "learning_rate": 0.0001,
      "loss": 8.5949,
      "loss/crossentropy": 2.2709645599126818,
      "loss/hidden": 3.901953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2653419800102711,
      "step": 8660
    },
    {
      "epoch": 0.289,
      "grad_norm": 30.375,
      "grad_norm_var": 11.949739583333333,
      "learning_rate": 0.0001,
      "loss": 8.4114,
      "loss/crossentropy": 2.142335993051529,
      "loss/hidden": 3.825390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2271432813256979,
      "step": 8670
    },
    {
      "epoch": 0.28933333333333333,
      "grad_norm": 30.75,
      "grad_norm_var": 13.236393229166667,
      "learning_rate": 0.0001,
      "loss": 8.4548,
      "loss/crossentropy": 1.991011817008257,
      "loss/hidden": 3.896875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2274771448224783,
      "step": 8680
    },
    {
      "epoch": 0.2896666666666667,
      "grad_norm": 31.875,
      "grad_norm_var": 21.591666666666665,
      "learning_rate": 0.0001,
      "loss": 8.5036,
      "loss/crossentropy": 2.067255499958992,
      "loss/hidden": 3.975,
      "loss/jsd": 0.0,
      "loss/logits": 0.25000386498868465,
      "step": 8690
    },
    {
      "epoch": 0.29,
      "grad_norm": 31.625,
      "grad_norm_var": 13.7697265625,
      "learning_rate": 0.0001,
      "loss": 8.4065,
      "loss/crossentropy": 2.032663035392761,
      "loss/hidden": 3.9734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26009538136422633,
      "step": 8700
    },
    {
      "epoch": 0.29033333333333333,
      "grad_norm": 28.625,
      "grad_norm_var": 9.573372395833333,
      "learning_rate": 0.0001,
      "loss": 8.4264,
      "loss/crossentropy": 2.129157376289368,
      "loss/hidden": 3.781640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2426974017173052,
      "step": 8710
    },
    {
      "epoch": 0.2906666666666667,
      "grad_norm": 31.125,
      "grad_norm_var": 9.345247395833333,
      "learning_rate": 0.0001,
      "loss": 8.4556,
      "loss/crossentropy": 2.1253123968839644,
      "loss/hidden": 3.79296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2316815422847867,
      "step": 8720
    },
    {
      "epoch": 0.291,
      "grad_norm": 30.375,
      "grad_norm_var": 288.3697265625,
      "learning_rate": 0.0001,
      "loss": 8.3447,
      "loss/crossentropy": 2.0766125731170177,
      "loss/hidden": 3.826171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2288608182221651,
      "step": 8730
    },
    {
      "epoch": 0.29133333333333333,
      "grad_norm": 30.0,
      "grad_norm_var": 291.34140625,
      "learning_rate": 0.0001,
      "loss": 8.4282,
      "loss/crossentropy": 2.0344169199466706,
      "loss/hidden": 3.881640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2401146437972784,
      "step": 8740
    },
    {
      "epoch": 0.2916666666666667,
      "grad_norm": 31.375,
      "grad_norm_var": 8.283333333333333,
      "learning_rate": 0.0001,
      "loss": 8.5577,
      "loss/crossentropy": 2.0992552161216738,
      "loss/hidden": 3.89296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2575317870825529,
      "step": 8750
    },
    {
      "epoch": 0.292,
      "grad_norm": 27.75,
      "grad_norm_var": 18.577083333333334,
      "learning_rate": 0.0001,
      "loss": 8.572,
      "loss/crossentropy": 2.1781798616051673,
      "loss/hidden": 3.837890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24388179033994675,
      "step": 8760
    },
    {
      "epoch": 0.29233333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 20.822330729166666,
      "learning_rate": 0.0001,
      "loss": 8.3706,
      "loss/crossentropy": 2.0903132036328316,
      "loss/hidden": 3.845703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22936930637806655,
      "step": 8770
    },
    {
      "epoch": 0.2926666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 12.4869140625,
      "learning_rate": 0.0001,
      "loss": 8.4817,
      "loss/crossentropy": 2.1733203932642935,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.23095921371132136,
      "step": 8780
    },
    {
      "epoch": 0.293,
      "grad_norm": 33.25,
      "grad_norm_var": 17.363997395833334,
      "learning_rate": 0.0001,
      "loss": 8.5659,
      "loss/crossentropy": 2.088620986789465,
      "loss/hidden": 3.82578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2334995089098811,
      "step": 8790
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 33.75,
      "grad_norm_var": 11.377018229166667,
      "learning_rate": 0.0001,
      "loss": 8.5218,
      "loss/crossentropy": 1.9903348997235297,
      "loss/hidden": 3.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24103877376765012,
      "step": 8800
    },
    {
      "epoch": 0.2936666666666667,
      "grad_norm": 31.625,
      "grad_norm_var": 23.551041666666666,
      "learning_rate": 0.0001,
      "loss": 8.4445,
      "loss/crossentropy": 2.0936522856354713,
      "loss/hidden": 3.83125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2551413768902421,
      "step": 8810
    },
    {
      "epoch": 0.294,
      "grad_norm": 29.625,
      "grad_norm_var": 9.57890625,
      "learning_rate": 0.0001,
      "loss": 8.4923,
      "loss/crossentropy": 2.3439304143190385,
      "loss/hidden": 3.803515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2454788561910391,
      "step": 8820
    },
    {
      "epoch": 0.29433333333333334,
      "grad_norm": 35.5,
      "grad_norm_var": 5.115559895833333,
      "learning_rate": 0.0001,
      "loss": 8.506,
      "loss/crossentropy": 2.0696601763367655,
      "loss/hidden": 3.872265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2583671987056732,
      "step": 8830
    },
    {
      "epoch": 0.2946666666666667,
      "grad_norm": 30.625,
      "grad_norm_var": 10.8509765625,
      "learning_rate": 0.0001,
      "loss": 8.4108,
      "loss/crossentropy": 2.0794931963086127,
      "loss/hidden": 3.76328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2228974211961031,
      "step": 8840
    },
    {
      "epoch": 0.295,
      "grad_norm": 30.25,
      "grad_norm_var": 10.792708333333334,
      "learning_rate": 0.0001,
      "loss": 8.4583,
      "loss/crossentropy": 2.083049839735031,
      "loss/hidden": 3.909765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.243487436324358,
      "step": 8850
    },
    {
      "epoch": 0.29533333333333334,
      "grad_norm": 33.25,
      "grad_norm_var": 24.915625,
      "learning_rate": 0.0001,
      "loss": 8.5509,
      "loss/crossentropy": 2.260637935996056,
      "loss/hidden": 3.880859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24824294932186602,
      "step": 8860
    },
    {
      "epoch": 0.2956666666666667,
      "grad_norm": 29.0,
      "grad_norm_var": 29.515559895833334,
      "learning_rate": 0.0001,
      "loss": 8.3554,
      "loss/crossentropy": 2.0667995259165766,
      "loss/hidden": 3.91875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24629948288202286,
      "step": 8870
    },
    {
      "epoch": 0.296,
      "grad_norm": 35.25,
      "grad_norm_var": 11.530208333333333,
      "learning_rate": 0.0001,
      "loss": 8.575,
      "loss/crossentropy": 2.1920250236988066,
      "loss/hidden": 3.991796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2532145943492651,
      "step": 8880
    },
    {
      "epoch": 0.29633333333333334,
      "grad_norm": 32.75,
      "grad_norm_var": 9.559375,
      "learning_rate": 0.0001,
      "loss": 8.3751,
      "loss/crossentropy": 2.1635709404945374,
      "loss/hidden": 3.77265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23346599154174327,
      "step": 8890
    },
    {
      "epoch": 0.2966666666666667,
      "grad_norm": 33.25,
      "grad_norm_var": 6.438997395833334,
      "learning_rate": 0.0001,
      "loss": 8.48,
      "loss/crossentropy": 2.2036055833101273,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22973880134522914,
      "step": 8900
    },
    {
      "epoch": 0.297,
      "grad_norm": 32.5,
      "grad_norm_var": 5.424739583333333,
      "learning_rate": 0.0001,
      "loss": 8.4154,
      "loss/crossentropy": 2.319879895448685,
      "loss/hidden": 3.826171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24667385257780552,
      "step": 8910
    },
    {
      "epoch": 0.29733333333333334,
      "grad_norm": 30.25,
      "grad_norm_var": 9.153059895833334,
      "learning_rate": 0.0001,
      "loss": 8.4004,
      "loss/crossentropy": 2.2534718930721285,
      "loss/hidden": 3.858984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25190291851758956,
      "step": 8920
    },
    {
      "epoch": 0.2976666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 6.745833333333334,
      "learning_rate": 0.0001,
      "loss": 8.4038,
      "loss/crossentropy": 2.002136807143688,
      "loss/hidden": 3.998828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2326902337372303,
      "step": 8930
    },
    {
      "epoch": 0.298,
      "grad_norm": 30.75,
      "grad_norm_var": 2.4567057291666665,
      "learning_rate": 0.0001,
      "loss": 8.4458,
      "loss/crossentropy": 2.013306239247322,
      "loss/hidden": 3.84921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22715070880949498,
      "step": 8940
    },
    {
      "epoch": 0.29833333333333334,
      "grad_norm": 33.0,
      "grad_norm_var": 4.373372395833333,
      "learning_rate": 0.0001,
      "loss": 8.447,
      "loss/crossentropy": 2.2556902036070823,
      "loss/hidden": 3.84921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2423699676990509,
      "step": 8950
    },
    {
      "epoch": 0.2986666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 43.209309895833336,
      "learning_rate": 0.0001,
      "loss": 8.4247,
      "loss/crossentropy": 2.2286648035049437,
      "loss/hidden": 3.874609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2592891216278076,
      "step": 8960
    },
    {
      "epoch": 0.299,
      "grad_norm": 30.375,
      "grad_norm_var": 7.9244140625,
      "learning_rate": 0.0001,
      "loss": 8.4795,
      "loss/crossentropy": 2.003975507616997,
      "loss/hidden": 3.9015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22656005583703517,
      "step": 8970
    },
    {
      "epoch": 0.29933333333333334,
      "grad_norm": 29.875,
      "grad_norm_var": 86.21979166666667,
      "learning_rate": 0.0001,
      "loss": 8.3252,
      "loss/crossentropy": 2.1622410126030447,
      "loss/hidden": 3.7859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25566081050783396,
      "step": 8980
    },
    {
      "epoch": 0.2996666666666667,
      "grad_norm": 30.625,
      "grad_norm_var": 28.685872395833332,
      "learning_rate": 0.0001,
      "loss": 8.4789,
      "loss/crossentropy": 2.012830953299999,
      "loss/hidden": 3.932421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22984218932688236,
      "step": 8990
    },
    {
      "epoch": 0.3,
      "grad_norm": 34.5,
      "grad_norm_var": 53.1634765625,
      "learning_rate": 0.0001,
      "loss": 8.5887,
      "loss/crossentropy": 2.114059830456972,
      "loss/hidden": 3.7703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23531355792656541,
      "step": 9000
    },
    {
      "epoch": 0.30033333333333334,
      "grad_norm": 30.875,
      "grad_norm_var": 16.183333333333334,
      "learning_rate": 0.0001,
      "loss": 8.433,
      "loss/crossentropy": 2.0997436851263047,
      "loss/hidden": 3.858984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2503551162779331,
      "step": 9010
    },
    {
      "epoch": 0.3006666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 6.585872395833333,
      "learning_rate": 0.0001,
      "loss": 8.4156,
      "loss/crossentropy": 1.9693719133734704,
      "loss/hidden": 3.89375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24317112397402524,
      "step": 9020
    },
    {
      "epoch": 0.301,
      "grad_norm": 32.75,
      "grad_norm_var": 6.77265625,
      "learning_rate": 0.0001,
      "loss": 8.4748,
      "loss/crossentropy": 2.2020839557051657,
      "loss/hidden": 3.834375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24702335204929113,
      "step": 9030
    },
    {
      "epoch": 0.30133333333333334,
      "grad_norm": 32.75,
      "grad_norm_var": 39.889322916666664,
      "learning_rate": 0.0001,
      "loss": 8.5507,
      "loss/crossentropy": 2.1863808527588846,
      "loss/hidden": 3.866015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2480563845485449,
      "step": 9040
    },
    {
      "epoch": 0.3016666666666667,
      "grad_norm": 30.875,
      "grad_norm_var": 3.921875,
      "learning_rate": 0.0001,
      "loss": 8.468,
      "loss/crossentropy": 2.190934830904007,
      "loss/hidden": 3.825390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23958997726440429,
      "step": 9050
    },
    {
      "epoch": 0.302,
      "grad_norm": 32.0,
      "grad_norm_var": 3.06875,
      "learning_rate": 0.0001,
      "loss": 8.6069,
      "loss/crossentropy": 2.0262902580201625,
      "loss/hidden": 3.857421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.238032066822052,
      "step": 9060
    },
    {
      "epoch": 0.30233333333333334,
      "grad_norm": 31.125,
      "grad_norm_var": 10.905143229166667,
      "learning_rate": 0.0001,
      "loss": 8.5303,
      "loss/crossentropy": 2.250582979619503,
      "loss/hidden": 3.889453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2632708761841059,
      "step": 9070
    },
    {
      "epoch": 0.30266666666666664,
      "grad_norm": 32.0,
      "grad_norm_var": 7.757747395833333,
      "learning_rate": 0.0001,
      "loss": 8.3925,
      "loss/crossentropy": 2.2143336325883864,
      "loss/hidden": 3.739453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24901481308043003,
      "step": 9080
    },
    {
      "epoch": 0.303,
      "grad_norm": 29.0,
      "grad_norm_var": 4.017122395833334,
      "learning_rate": 0.0001,
      "loss": 8.2542,
      "loss/crossentropy": 1.9929497942328454,
      "loss/hidden": 3.869921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21925227269530295,
      "step": 9090
    },
    {
      "epoch": 0.30333333333333334,
      "grad_norm": 35.25,
      "grad_norm_var": 5.552083333333333,
      "learning_rate": 0.0001,
      "loss": 8.4873,
      "loss/crossentropy": 2.0095451258122923,
      "loss/hidden": 3.928515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2549102198332548,
      "step": 9100
    },
    {
      "epoch": 0.30366666666666664,
      "grad_norm": 31.875,
      "grad_norm_var": 382.7212890625,
      "learning_rate": 0.0001,
      "loss": 8.2141,
      "loss/crossentropy": 2.1979493319988253,
      "loss/hidden": 3.853515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24009186886250972,
      "step": 9110
    },
    {
      "epoch": 0.304,
      "grad_norm": 27.375,
      "grad_norm_var": 8.060416666666667,
      "learning_rate": 0.0001,
      "loss": 8.4104,
      "loss/crossentropy": 1.9613987788558007,
      "loss/hidden": 3.8875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24363567791879176,
      "step": 9120
    },
    {
      "epoch": 0.30433333333333334,
      "grad_norm": 31.75,
      "grad_norm_var": 4.2900390625,
      "learning_rate": 0.0001,
      "loss": 8.2729,
      "loss/crossentropy": 2.1863881021738054,
      "loss/hidden": 3.91875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2690675131976604,
      "step": 9130
    },
    {
      "epoch": 0.30466666666666664,
      "grad_norm": 33.75,
      "grad_norm_var": 6.741080729166667,
      "learning_rate": 0.0001,
      "loss": 8.5514,
      "loss/crossentropy": 2.2427688628435134,
      "loss/hidden": 3.885546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26169066652655604,
      "step": 9140
    },
    {
      "epoch": 0.305,
      "grad_norm": 37.0,
      "grad_norm_var": 285.70598958333335,
      "learning_rate": 0.0001,
      "loss": 8.6121,
      "loss/crossentropy": 1.990150697529316,
      "loss/hidden": 3.994921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24852563850581647,
      "step": 9150
    },
    {
      "epoch": 0.30533333333333335,
      "grad_norm": 29.125,
      "grad_norm_var": 306.2962890625,
      "learning_rate": 0.0001,
      "loss": 8.3866,
      "loss/crossentropy": 2.1101179368793965,
      "loss/hidden": 3.81328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22837954824790357,
      "step": 9160
    },
    {
      "epoch": 0.30566666666666664,
      "grad_norm": 32.25,
      "grad_norm_var": 2.093489583333333,
      "learning_rate": 0.0001,
      "loss": 8.4458,
      "loss/crossentropy": 2.197181521356106,
      "loss/hidden": 3.775390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22719864509999751,
      "step": 9170
    },
    {
      "epoch": 0.306,
      "grad_norm": 33.5,
      "grad_norm_var": 7.672916666666667,
      "learning_rate": 0.0001,
      "loss": 8.4434,
      "loss/crossentropy": 2.16142196059227,
      "loss/hidden": 3.771875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23021659553050994,
      "step": 9180
    },
    {
      "epoch": 0.30633333333333335,
      "grad_norm": 31.75,
      "grad_norm_var": 9.355989583333333,
      "learning_rate": 0.0001,
      "loss": 8.3877,
      "loss/crossentropy": 2.226871684193611,
      "loss/hidden": 3.780859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24033361952751875,
      "step": 9190
    },
    {
      "epoch": 0.30666666666666664,
      "grad_norm": 33.75,
      "grad_norm_var": 9.868489583333334,
      "learning_rate": 0.0001,
      "loss": 8.3055,
      "loss/crossentropy": 2.077723103761673,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22728441171348096,
      "step": 9200
    },
    {
      "epoch": 0.307,
      "grad_norm": 30.125,
      "grad_norm_var": 2.35390625,
      "learning_rate": 0.0001,
      "loss": 8.3532,
      "loss/crossentropy": 1.9681759729981423,
      "loss/hidden": 3.755859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21074463604018093,
      "step": 9210
    },
    {
      "epoch": 0.30733333333333335,
      "grad_norm": 29.0,
      "grad_norm_var": 3.51015625,
      "learning_rate": 0.0001,
      "loss": 8.3401,
      "loss/crossentropy": 2.04879729449749,
      "loss/hidden": 3.869921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2396139794960618,
      "step": 9220
    },
    {
      "epoch": 0.30766666666666664,
      "grad_norm": 30.0,
      "grad_norm_var": 4.790625,
      "learning_rate": 0.0001,
      "loss": 8.4286,
      "loss/crossentropy": 2.1882148049771786,
      "loss/hidden": 3.808984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24543070700019598,
      "step": 9230
    },
    {
      "epoch": 0.308,
      "grad_norm": 31.625,
      "grad_norm_var": 2.678125,
      "learning_rate": 0.0001,
      "loss": 8.4211,
      "loss/crossentropy": 2.2667997002601625,
      "loss/hidden": 3.884375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24577980488538742,
      "step": 9240
    },
    {
      "epoch": 0.30833333333333335,
      "grad_norm": 29.75,
      "grad_norm_var": 7.91875,
      "learning_rate": 0.0001,
      "loss": 8.219,
      "loss/crossentropy": 1.994037589430809,
      "loss/hidden": 3.87890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24291819017380475,
      "step": 9250
    },
    {
      "epoch": 0.30866666666666664,
      "grad_norm": 31.125,
      "grad_norm_var": 8.796809895833333,
      "learning_rate": 0.0001,
      "loss": 8.3915,
      "loss/crossentropy": 2.081589598953724,
      "loss/hidden": 3.825390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2480682110413909,
      "step": 9260
    },
    {
      "epoch": 0.309,
      "grad_norm": 32.75,
      "grad_norm_var": 3.5931640625,
      "learning_rate": 0.0001,
      "loss": 8.3068,
      "loss/crossentropy": 2.1044846177101135,
      "loss/hidden": 3.815625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24079927131533624,
      "step": 9270
    },
    {
      "epoch": 0.30933333333333335,
      "grad_norm": 29.875,
      "grad_norm_var": 2.27890625,
      "learning_rate": 0.0001,
      "loss": 8.2079,
      "loss/crossentropy": 2.1612381815910338,
      "loss/hidden": 3.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24531424194574356,
      "step": 9280
    },
    {
      "epoch": 0.30966666666666665,
      "grad_norm": 37.5,
      "grad_norm_var": 5.51640625,
      "learning_rate": 0.0001,
      "loss": 8.4078,
      "loss/crossentropy": 2.2455517396330835,
      "loss/hidden": 3.787890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2453090760856867,
      "step": 9290
    },
    {
      "epoch": 0.31,
      "grad_norm": 30.5,
      "grad_norm_var": 6.86015625,
      "learning_rate": 0.0001,
      "loss": 8.3582,
      "loss/crossentropy": 2.20194024592638,
      "loss/hidden": 3.809375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23695877343416213,
      "step": 9300
    },
    {
      "epoch": 0.31033333333333335,
      "grad_norm": 30.0,
      "grad_norm_var": 1.6389973958333333,
      "learning_rate": 0.0001,
      "loss": 8.3247,
      "loss/crossentropy": 2.0889609307050705,
      "loss/hidden": 3.86796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2596073430031538,
      "step": 9310
    },
    {
      "epoch": 0.31066666666666665,
      "grad_norm": 30.5,
      "grad_norm_var": 2.6884765625,
      "learning_rate": 0.0001,
      "loss": 8.352,
      "loss/crossentropy": 2.1579457476735113,
      "loss/hidden": 3.731640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2405384209007025,
      "step": 9320
    },
    {
      "epoch": 0.311,
      "grad_norm": 33.25,
      "grad_norm_var": 4.2119140625,
      "learning_rate": 0.0001,
      "loss": 8.4274,
      "loss/crossentropy": 2.1878247916698457,
      "loss/hidden": 3.809765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25121636800467967,
      "step": 9330
    },
    {
      "epoch": 0.31133333333333335,
      "grad_norm": 31.75,
      "grad_norm_var": 10.9603515625,
      "learning_rate": 0.0001,
      "loss": 8.4321,
      "loss/crossentropy": 1.912748570740223,
      "loss/hidden": 3.85703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23128144443035126,
      "step": 9340
    },
    {
      "epoch": 0.31166666666666665,
      "grad_norm": 33.25,
      "grad_norm_var": 2.4077473958333333,
      "learning_rate": 0.0001,
      "loss": 8.3519,
      "loss/crossentropy": 2.1460745990276338,
      "loss/hidden": 3.698046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21920422809198498,
      "step": 9350
    },
    {
      "epoch": 0.312,
      "grad_norm": 33.25,
      "grad_norm_var": 6.1134765625,
      "learning_rate": 0.0001,
      "loss": 8.464,
      "loss/crossentropy": 2.0449389033019543,
      "loss/hidden": 3.89140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23441595807671547,
      "step": 9360
    },
    {
      "epoch": 0.31233333333333335,
      "grad_norm": 31.875,
      "grad_norm_var": 9.36015625,
      "learning_rate": 0.0001,
      "loss": 8.4169,
      "loss/crossentropy": 2.0924183890223502,
      "loss/hidden": 3.936328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25249840430915355,
      "step": 9370
    },
    {
      "epoch": 0.31266666666666665,
      "grad_norm": 30.625,
      "grad_norm_var": 2.5635416666666666,
      "learning_rate": 0.0001,
      "loss": 8.3858,
      "loss/crossentropy": 2.085674402490258,
      "loss/hidden": 3.870703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2478548888117075,
      "step": 9380
    },
    {
      "epoch": 0.313,
      "grad_norm": 31.625,
      "grad_norm_var": 1.5947916666666666,
      "learning_rate": 0.0001,
      "loss": 8.3522,
      "loss/crossentropy": 2.216167467832565,
      "loss/hidden": 3.952734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2461514551192522,
      "step": 9390
    },
    {
      "epoch": 0.31333333333333335,
      "grad_norm": 27.25,
      "grad_norm_var": 4.6212890625,
      "learning_rate": 0.0001,
      "loss": 8.3455,
      "loss/crossentropy": 2.0884574115276338,
      "loss/hidden": 3.975,
      "loss/jsd": 0.0,
      "loss/logits": 0.23749772738665342,
      "step": 9400
    },
    {
      "epoch": 0.31366666666666665,
      "grad_norm": 31.5,
      "grad_norm_var": 4.935872395833333,
      "learning_rate": 0.0001,
      "loss": 8.4968,
      "loss/crossentropy": 2.0512664087116717,
      "loss/hidden": 3.9125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24940967485308646,
      "step": 9410
    },
    {
      "epoch": 0.314,
      "grad_norm": 32.75,
      "grad_norm_var": 3.8374348958333333,
      "learning_rate": 0.0001,
      "loss": 8.507,
      "loss/crossentropy": 2.1305520750582216,
      "loss/hidden": 3.708203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22748439833521844,
      "step": 9420
    },
    {
      "epoch": 0.31433333333333335,
      "grad_norm": 33.25,
      "grad_norm_var": 3.1197265625,
      "learning_rate": 0.0001,
      "loss": 8.3505,
      "loss/crossentropy": 2.1478428706526755,
      "loss/hidden": 3.8171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26068285927176477,
      "step": 9430
    },
    {
      "epoch": 0.31466666666666665,
      "grad_norm": 31.0,
      "grad_norm_var": 10.255989583333333,
      "learning_rate": 0.0001,
      "loss": 8.4617,
      "loss/crossentropy": 2.257087817788124,
      "loss/hidden": 3.928515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24564366415143013,
      "step": 9440
    },
    {
      "epoch": 0.315,
      "grad_norm": 30.625,
      "grad_norm_var": 3.189322916666667,
      "learning_rate": 0.0001,
      "loss": 8.5139,
      "loss/crossentropy": 2.2028581954538824,
      "loss/hidden": 3.878125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24985253605991603,
      "step": 9450
    },
    {
      "epoch": 0.31533333333333335,
      "grad_norm": 32.25,
      "grad_norm_var": 12.878059895833333,
      "learning_rate": 0.0001,
      "loss": 8.3581,
      "loss/crossentropy": 2.2839835971593856,
      "loss/hidden": 3.7609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24003779105842113,
      "step": 9460
    },
    {
      "epoch": 0.31566666666666665,
      "grad_norm": 27.125,
      "grad_norm_var": 13.624934895833333,
      "learning_rate": 0.0001,
      "loss": 8.3315,
      "loss/crossentropy": 2.1846924126148224,
      "loss/hidden": 3.828515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2577309591695666,
      "step": 9470
    },
    {
      "epoch": 0.316,
      "grad_norm": 30.875,
      "grad_norm_var": 11.371809895833334,
      "learning_rate": 0.0001,
      "loss": 8.3005,
      "loss/crossentropy": 2.1467300802469254,
      "loss/hidden": 3.784765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2385113213211298,
      "step": 9480
    },
    {
      "epoch": 0.31633333333333336,
      "grad_norm": 32.25,
      "grad_norm_var": 6.6697265625,
      "learning_rate": 0.0001,
      "loss": 8.4251,
      "loss/crossentropy": 2.0814339205622674,
      "loss/hidden": 3.93984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2647860247641802,
      "step": 9490
    },
    {
      "epoch": 0.31666666666666665,
      "grad_norm": 40.0,
      "grad_norm_var": 10.087955729166667,
      "learning_rate": 0.0001,
      "loss": 8.2889,
      "loss/crossentropy": 2.0348707735538483,
      "loss/hidden": 3.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23109398372471332,
      "step": 9500
    },
    {
      "epoch": 0.317,
      "grad_norm": 31.25,
      "grad_norm_var": 8.975,
      "learning_rate": 0.0001,
      "loss": 8.3453,
      "loss/crossentropy": 2.011518883705139,
      "loss/hidden": 3.915234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24540937803685664,
      "step": 9510
    },
    {
      "epoch": 0.31733333333333336,
      "grad_norm": 30.125,
      "grad_norm_var": 2.7587890625,
      "learning_rate": 0.0001,
      "loss": 8.3162,
      "loss/crossentropy": 2.1556458704173567,
      "loss/hidden": 3.7796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2444867927581072,
      "step": 9520
    },
    {
      "epoch": 0.31766666666666665,
      "grad_norm": 32.75,
      "grad_norm_var": 3.5035807291666665,
      "learning_rate": 0.0001,
      "loss": 8.3472,
      "loss/crossentropy": 2.081064721941948,
      "loss/hidden": 3.833984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24423375371843575,
      "step": 9530
    },
    {
      "epoch": 0.318,
      "grad_norm": 30.0,
      "grad_norm_var": 9.223372395833334,
      "learning_rate": 0.0001,
      "loss": 8.3239,
      "loss/crossentropy": 2.0272342920303346,
      "loss/hidden": 4.003515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24455212838947774,
      "step": 9540
    },
    {
      "epoch": 0.31833333333333336,
      "grad_norm": 34.5,
      "grad_norm_var": 2.3824041777970545e+18,
      "learning_rate": 0.0001,
      "loss": 8.4159,
      "loss/crossentropy": 2.2179324753582477,
      "loss/hidden": 3.867578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23996016178280116,
      "step": 9550
    },
    {
      "epoch": 0.31866666666666665,
      "grad_norm": 30.75,
      "grad_norm_var": 2.382404178144343e+18,
      "learning_rate": 0.0001,
      "loss": 8.3233,
      "loss/crossentropy": 2.08397556617856,
      "loss/hidden": 3.85234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22639973247423767,
      "step": 9560
    },
    {
      "epoch": 0.319,
      "grad_norm": 34.25,
      "grad_norm_var": 99.1587890625,
      "learning_rate": 0.0001,
      "loss": 8.3621,
      "loss/crossentropy": 2.1781677812337876,
      "loss/hidden": 3.758984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23908968791365623,
      "step": 9570
    },
    {
      "epoch": 0.31933333333333336,
      "grad_norm": 31.625,
      "grad_norm_var": 3.3208333333333333,
      "learning_rate": 0.0001,
      "loss": 8.3194,
      "loss/crossentropy": 2.165592886507511,
      "loss/hidden": 3.739453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23889986649155617,
      "step": 9580
    },
    {
      "epoch": 0.31966666666666665,
      "grad_norm": 31.75,
      "grad_norm_var": 4.983072916666667,
      "learning_rate": 0.0001,
      "loss": 8.3029,
      "loss/crossentropy": 2.0493919394910334,
      "loss/hidden": 3.8265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21441856175661086,
      "step": 9590
    },
    {
      "epoch": 0.32,
      "grad_norm": 32.25,
      "grad_norm_var": 3.874739583333333,
      "learning_rate": 0.0001,
      "loss": 8.2748,
      "loss/crossentropy": 2.035661220550537,
      "loss/hidden": 3.841796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24448039066046476,
      "step": 9600
    },
    {
      "epoch": 0.32033333333333336,
      "grad_norm": 28.375,
      "grad_norm_var": 42.1072265625,
      "learning_rate": 0.0001,
      "loss": 8.3015,
      "loss/crossentropy": 2.126982606202364,
      "loss/hidden": 3.825390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2457258015871048,
      "step": 9610
    },
    {
      "epoch": 0.32066666666666666,
      "grad_norm": 28.375,
      "grad_norm_var": 28.330989583333334,
      "learning_rate": 0.0001,
      "loss": 8.2735,
      "loss/crossentropy": 2.0983067765831946,
      "loss/hidden": 3.830078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23017309829592705,
      "step": 9620
    },
    {
      "epoch": 0.321,
      "grad_norm": 31.125,
      "grad_norm_var": 40.84264322916667,
      "learning_rate": 0.0001,
      "loss": 8.3467,
      "loss/crossentropy": 2.183681347966194,
      "loss/hidden": 3.85546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24658725559711456,
      "step": 9630
    },
    {
      "epoch": 0.32133333333333336,
      "grad_norm": 31.625,
      "grad_norm_var": 27.297916666666666,
      "learning_rate": 0.0001,
      "loss": 8.2972,
      "loss/crossentropy": 2.162729802727699,
      "loss/hidden": 3.79609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23747125826776028,
      "step": 9640
    },
    {
      "epoch": 0.32166666666666666,
      "grad_norm": 35.0,
      "grad_norm_var": 5.288541666666666,
      "learning_rate": 0.0001,
      "loss": 8.434,
      "loss/crossentropy": 2.1427035361528395,
      "loss/hidden": 3.78671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.249039919488132,
      "step": 9650
    },
    {
      "epoch": 0.322,
      "grad_norm": 28.875,
      "grad_norm_var": 6.216666666666667,
      "learning_rate": 0.0001,
      "loss": 8.2608,
      "loss/crossentropy": 2.2181741327047346,
      "loss/hidden": 3.7984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2580121297389269,
      "step": 9660
    },
    {
      "epoch": 0.32233333333333336,
      "grad_norm": 32.0,
      "grad_norm_var": 2.3535807291666666,
      "learning_rate": 0.0001,
      "loss": 8.3163,
      "loss/crossentropy": 2.1240747086703777,
      "loss/hidden": 3.805859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23749625347554684,
      "step": 9670
    },
    {
      "epoch": 0.32266666666666666,
      "grad_norm": 31.0,
      "grad_norm_var": 10.026041666666666,
      "learning_rate": 0.0001,
      "loss": 8.3716,
      "loss/crossentropy": 2.178921973705292,
      "loss/hidden": 3.826953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23335804082453251,
      "step": 9680
    },
    {
      "epoch": 0.323,
      "grad_norm": 29.875,
      "grad_norm_var": 3.7514973958333333,
      "learning_rate": 0.0001,
      "loss": 8.2053,
      "loss/crossentropy": 1.9151308126747608,
      "loss/hidden": 3.718359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22061082273721694,
      "step": 9690
    },
    {
      "epoch": 0.3233333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 6.75,
      "learning_rate": 0.0001,
      "loss": 8.2783,
      "loss/crossentropy": 2.1763371601700783,
      "loss/hidden": 3.832421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24064910151064395,
      "step": 9700
    },
    {
      "epoch": 0.32366666666666666,
      "grad_norm": 35.5,
      "grad_norm_var": 11.44765625,
      "learning_rate": 0.0001,
      "loss": 8.5377,
      "loss/crossentropy": 2.058997410535812,
      "loss/hidden": 3.8796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23803395926952362,
      "step": 9710
    },
    {
      "epoch": 0.324,
      "grad_norm": 29.0,
      "grad_norm_var": 4.698372395833333,
      "learning_rate": 0.0001,
      "loss": 8.1845,
      "loss/crossentropy": 2.0421560525894167,
      "loss/hidden": 3.766015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22774729747325181,
      "step": 9720
    },
    {
      "epoch": 0.3243333333333333,
      "grad_norm": 29.5,
      "grad_norm_var": 31.884309895833333,
      "learning_rate": 0.0001,
      "loss": 8.2768,
      "loss/crossentropy": 2.1532857537269594,
      "loss/hidden": 3.821875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24113734550774096,
      "step": 9730
    },
    {
      "epoch": 0.32466666666666666,
      "grad_norm": 31.0,
      "grad_norm_var": 7.264518229166667,
      "learning_rate": 0.0001,
      "loss": 8.4747,
      "loss/crossentropy": 2.0760410211980345,
      "loss/hidden": 3.835546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23573338724672793,
      "step": 9740
    },
    {
      "epoch": 0.325,
      "grad_norm": 29.375,
      "grad_norm_var": 6.7337890625,
      "learning_rate": 0.0001,
      "loss": 8.3715,
      "loss/crossentropy": 2.2192045249044896,
      "loss/hidden": 3.683203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21446713693439962,
      "step": 9750
    },
    {
      "epoch": 0.3253333333333333,
      "grad_norm": 31.25,
      "grad_norm_var": 8.4291015625,
      "learning_rate": 0.0001,
      "loss": 8.3085,
      "loss/crossentropy": 2.195969696342945,
      "loss/hidden": 3.7796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24359578415751457,
      "step": 9760
    },
    {
      "epoch": 0.32566666666666666,
      "grad_norm": 29.375,
      "grad_norm_var": 19.993489583333332,
      "learning_rate": 0.0001,
      "loss": 8.3417,
      "loss/crossentropy": 2.0906290262937546,
      "loss/hidden": 3.74921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2237309933640063,
      "step": 9770
    },
    {
      "epoch": 0.326,
      "grad_norm": 36.75,
      "grad_norm_var": 21.134830729166666,
      "learning_rate": 0.0001,
      "loss": 8.5136,
      "loss/crossentropy": 2.0349312365055083,
      "loss/hidden": 4.02265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25023720134049654,
      "step": 9780
    },
    {
      "epoch": 0.3263333333333333,
      "grad_norm": 33.5,
      "grad_norm_var": 6.266666666666667,
      "learning_rate": 0.0001,
      "loss": 8.3713,
      "loss/crossentropy": 2.0479774929583074,
      "loss/hidden": 3.88203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2510897688567638,
      "step": 9790
    },
    {
      "epoch": 0.32666666666666666,
      "grad_norm": 29.25,
      "grad_norm_var": 3.5947916666666666,
      "learning_rate": 0.0001,
      "loss": 8.3595,
      "loss/crossentropy": 2.1898303270339965,
      "loss/hidden": 3.8953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25962252635508776,
      "step": 9800
    },
    {
      "epoch": 0.327,
      "grad_norm": 36.5,
      "grad_norm_var": 6.862434895833333,
      "learning_rate": 0.0001,
      "loss": 8.3717,
      "loss/crossentropy": 2.0998566307127478,
      "loss/hidden": 3.752734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2255854407325387,
      "step": 9810
    },
    {
      "epoch": 0.3273333333333333,
      "grad_norm": 30.125,
      "grad_norm_var": 7.448893229166667,
      "learning_rate": 0.0001,
      "loss": 8.3888,
      "loss/crossentropy": 2.15216224193573,
      "loss/hidden": 3.88203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24142319150269032,
      "step": 9820
    },
    {
      "epoch": 0.32766666666666666,
      "grad_norm": 32.5,
      "grad_norm_var": 5.168684895833334,
      "learning_rate": 0.0001,
      "loss": 8.2977,
      "loss/crossentropy": 2.0397166281938555,
      "loss/hidden": 3.85859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24393697939813136,
      "step": 9830
    },
    {
      "epoch": 0.328,
      "grad_norm": 30.125,
      "grad_norm_var": 3.12890625,
      "learning_rate": 0.0001,
      "loss": 8.3692,
      "loss/crossentropy": 2.008080554753542,
      "loss/hidden": 3.7828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22885626852512359,
      "step": 9840
    },
    {
      "epoch": 0.3283333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 2.624739583333333,
      "learning_rate": 0.0001,
      "loss": 8.3227,
      "loss/crossentropy": 2.1162449195981026,
      "loss/hidden": 3.86953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2397829968482256,
      "step": 9850
    },
    {
      "epoch": 0.32866666666666666,
      "grad_norm": 29.5,
      "grad_norm_var": 5.151041666666667,
      "learning_rate": 0.0001,
      "loss": 8.347,
      "loss/crossentropy": 2.2286925226449967,
      "loss/hidden": 3.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24280091263353826,
      "step": 9860
    },
    {
      "epoch": 0.329,
      "grad_norm": 30.375,
      "grad_norm_var": 8.0072265625,
      "learning_rate": 0.0001,
      "loss": 8.3725,
      "loss/crossentropy": 2.1761581540107726,
      "loss/hidden": 3.762890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22693675048649312,
      "step": 9870
    },
    {
      "epoch": 0.3293333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 2.90390625,
      "learning_rate": 0.0001,
      "loss": 8.3481,
      "loss/crossentropy": 2.080559401214123,
      "loss/hidden": 3.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23833436965942384,
      "step": 9880
    },
    {
      "epoch": 0.32966666666666666,
      "grad_norm": 28.625,
      "grad_norm_var": 10.793489583333333,
      "learning_rate": 0.0001,
      "loss": 8.2629,
      "loss/crossentropy": 2.1615509897470475,
      "loss/hidden": 3.900390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2443408088758588,
      "step": 9890
    },
    {
      "epoch": 0.33,
      "grad_norm": 29.0,
      "grad_norm_var": 13.769205729166666,
      "learning_rate": 0.0001,
      "loss": 8.4146,
      "loss/crossentropy": 2.0900515958666803,
      "loss/hidden": 3.8265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23338977247476578,
      "step": 9900
    },
    {
      "epoch": 0.3303333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 5.7009765625,
      "learning_rate": 0.0001,
      "loss": 8.3165,
      "loss/crossentropy": 2.0612318471074103,
      "loss/hidden": 3.8640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2572694033384323,
      "step": 9910
    },
    {
      "epoch": 0.33066666666666666,
      "grad_norm": 38.5,
      "grad_norm_var": 9.492122395833333,
      "learning_rate": 0.0001,
      "loss": 8.3621,
      "loss/crossentropy": 2.1355748385190965,
      "loss/hidden": 3.861328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2555574133992195,
      "step": 9920
    },
    {
      "epoch": 0.331,
      "grad_norm": 31.875,
      "grad_norm_var": 8.562434895833333,
      "learning_rate": 0.0001,
      "loss": 8.2093,
      "loss/crossentropy": 2.032300639897585,
      "loss/hidden": 3.8375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25119177643209695,
      "step": 9930
    },
    {
      "epoch": 0.3313333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 1.31640625,
      "learning_rate": 0.0001,
      "loss": 8.3696,
      "loss/crossentropy": 2.0900708585977554,
      "loss/hidden": 3.874609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23378594107925893,
      "step": 9940
    },
    {
      "epoch": 0.33166666666666667,
      "grad_norm": 34.5,
      "grad_norm_var": 55.3228515625,
      "learning_rate": 0.0001,
      "loss": 8.3493,
      "loss/crossentropy": 1.9557788401842118,
      "loss/hidden": 3.908984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24859324246644973,
      "step": 9950
    },
    {
      "epoch": 0.332,
      "grad_norm": 30.625,
      "grad_norm_var": 58.469791666666666,
      "learning_rate": 0.0001,
      "loss": 8.3664,
      "loss/crossentropy": 2.041897915303707,
      "loss/hidden": 3.775,
      "loss/jsd": 0.0,
      "loss/logits": 0.229884634912014,
      "step": 9960
    },
    {
      "epoch": 0.3323333333333333,
      "grad_norm": 33.5,
      "grad_norm_var": 3.70390625,
      "learning_rate": 0.0001,
      "loss": 8.4056,
      "loss/crossentropy": 2.10531293079257,
      "loss/hidden": 3.849609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23604489639401435,
      "step": 9970
    },
    {
      "epoch": 0.33266666666666667,
      "grad_norm": 33.0,
      "grad_norm_var": 15.415559895833333,
      "learning_rate": 0.0001,
      "loss": 8.2762,
      "loss/crossentropy": 2.3318694084882736,
      "loss/hidden": 3.791015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24015157260000705,
      "step": 9980
    },
    {
      "epoch": 0.333,
      "grad_norm": 30.625,
      "grad_norm_var": 3.520768229166667,
      "learning_rate": 0.0001,
      "loss": 8.3135,
      "loss/crossentropy": 2.2009642593562604,
      "loss/hidden": 3.73671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22714318558573723,
      "step": 9990
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 28.5,
      "grad_norm_var": 3.31875,
      "learning_rate": 0.0001,
      "loss": 8.0996,
      "loss/crossentropy": 1.9759045481681823,
      "loss/hidden": 3.86015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2291174167767167,
      "step": 10000
    },
    {
      "epoch": 0.33366666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 7.280143229166667,
      "learning_rate": 0.0001,
      "loss": 8.3198,
      "loss/crossentropy": 2.250378394126892,
      "loss/hidden": 3.8390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24800184294581412,
      "step": 10010
    },
    {
      "epoch": 0.334,
      "grad_norm": 37.5,
      "grad_norm_var": 1.892637721373547e+18,
      "learning_rate": 0.0001,
      "loss": 8.5697,
      "loss/crossentropy": 2.0878022998571395,
      "loss/hidden": 3.894140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24692457877099513,
      "step": 10020
    },
    {
      "epoch": 0.3343333333333333,
      "grad_norm": 34.25,
      "grad_norm_var": 17.612239583333334,
      "learning_rate": 0.0001,
      "loss": 8.4287,
      "loss/crossentropy": 2.1991532504558564,
      "loss/hidden": 3.73828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22239614240825176,
      "step": 10030
    },
    {
      "epoch": 0.33466666666666667,
      "grad_norm": 33.75,
      "grad_norm_var": 14.96015625,
      "learning_rate": 0.0001,
      "loss": 8.3611,
      "loss/crossentropy": 2.1013733208179475,
      "loss/hidden": 3.845703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2412415651604533,
      "step": 10040
    },
    {
      "epoch": 0.335,
      "grad_norm": 31.625,
      "grad_norm_var": 2.1184895833333335,
      "learning_rate": 0.0001,
      "loss": 8.3079,
      "loss/crossentropy": 2.1323711395263674,
      "loss/hidden": 3.775390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2319201186299324,
      "step": 10050
    },
    {
      "epoch": 0.3353333333333333,
      "grad_norm": 28.5,
      "grad_norm_var": 4.184309895833334,
      "learning_rate": 0.0001,
      "loss": 8.3487,
      "loss/crossentropy": 2.1746664479374886,
      "loss/hidden": 3.869921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24217009954154492,
      "step": 10060
    },
    {
      "epoch": 0.33566666666666667,
      "grad_norm": 31.0,
      "grad_norm_var": 4.6712890625,
      "learning_rate": 0.0001,
      "loss": 8.4495,
      "loss/crossentropy": 2.1526307716965674,
      "loss/hidden": 3.76875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24897574950009585,
      "step": 10070
    },
    {
      "epoch": 0.336,
      "grad_norm": 33.25,
      "grad_norm_var": 3.486458333333333,
      "learning_rate": 0.0001,
      "loss": 8.3761,
      "loss/crossentropy": 2.175819969177246,
      "loss/hidden": 3.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2495252525433898,
      "step": 10080
    },
    {
      "epoch": 0.3363333333333333,
      "grad_norm": 31.375,
      "grad_norm_var": 3.7577473958333334,
      "learning_rate": 0.0001,
      "loss": 8.2976,
      "loss/crossentropy": 2.1154340267181397,
      "loss/hidden": 3.886328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2435309149324894,
      "step": 10090
    },
    {
      "epoch": 0.33666666666666667,
      "grad_norm": 28.25,
      "grad_norm_var": 5.289583333333334,
      "learning_rate": 0.0001,
      "loss": 8.2897,
      "loss/crossentropy": 1.9862043529748916,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22356732599437237,
      "step": 10100
    },
    {
      "epoch": 0.337,
      "grad_norm": 30.125,
      "grad_norm_var": 4.676497395833334,
      "learning_rate": 0.0001,
      "loss": 8.4647,
      "loss/crossentropy": 2.149342668801546,
      "loss/hidden": 3.8328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25235841386020186,
      "step": 10110
    },
    {
      "epoch": 0.3373333333333333,
      "grad_norm": 41.75,
      "grad_norm_var": 70.57057291666666,
      "learning_rate": 0.0001,
      "loss": 8.4197,
      "loss/crossentropy": 2.3661131516098974,
      "loss/hidden": 3.769140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25782175101339816,
      "step": 10120
    },
    {
      "epoch": 0.33766666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 295.07604166666664,
      "learning_rate": 0.0001,
      "loss": 8.2983,
      "loss/crossentropy": 2.2677551925182344,
      "loss/hidden": 3.787890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24740365371108056,
      "step": 10130
    },
    {
      "epoch": 0.338,
      "grad_norm": 35.5,
      "grad_norm_var": 284.6176432291667,
      "learning_rate": 0.0001,
      "loss": 8.4841,
      "loss/crossentropy": 2.134307199716568,
      "loss/hidden": 3.8296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23806515689939262,
      "step": 10140
    },
    {
      "epoch": 0.3383333333333333,
      "grad_norm": 32.5,
      "grad_norm_var": 4.538997395833333,
      "learning_rate": 0.0001,
      "loss": 8.3621,
      "loss/crossentropy": 2.3126337975263596,
      "loss/hidden": 3.85703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26148965023458004,
      "step": 10150
    },
    {
      "epoch": 0.33866666666666667,
      "grad_norm": 37.0,
      "grad_norm_var": 5.0353515625,
      "learning_rate": 0.0001,
      "loss": 8.2753,
      "loss/crossentropy": 2.0247806657105683,
      "loss/hidden": 3.89375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23136391188018024,
      "step": 10160
    },
    {
      "epoch": 0.339,
      "grad_norm": 27.75,
      "grad_norm_var": 7.939518229166667,
      "learning_rate": 0.0001,
      "loss": 8.2568,
      "loss/crossentropy": 2.1857830375432967,
      "loss/hidden": 3.741796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23809754736721517,
      "step": 10170
    },
    {
      "epoch": 0.3393333333333333,
      "grad_norm": 31.75,
      "grad_norm_var": 6.262239583333334,
      "learning_rate": 0.0001,
      "loss": 8.321,
      "loss/crossentropy": 2.045456614345312,
      "loss/hidden": 3.776953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23576115854084492,
      "step": 10180
    },
    {
      "epoch": 0.3396666666666667,
      "grad_norm": 30.5,
      "grad_norm_var": 1.8822265625,
      "learning_rate": 0.0001,
      "loss": 8.2247,
      "loss/crossentropy": 2.035719431936741,
      "loss/hidden": 3.757421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2281944528222084,
      "step": 10190
    },
    {
      "epoch": 0.34,
      "grad_norm": 31.375,
      "grad_norm_var": 7.2744140625,
      "learning_rate": 0.0001,
      "loss": 8.2969,
      "loss/crossentropy": 2.130661930143833,
      "loss/hidden": 3.798046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23119777366518973,
      "step": 10200
    },
    {
      "epoch": 0.3403333333333333,
      "grad_norm": 38.0,
      "grad_norm_var": 9.555989583333334,
      "learning_rate": 0.0001,
      "loss": 8.3353,
      "loss/crossentropy": 2.007842856645584,
      "loss/hidden": 3.954296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2692394644021988,
      "step": 10210
    },
    {
      "epoch": 0.3406666666666667,
      "grad_norm": 29.75,
      "grad_norm_var": 6.705208333333333,
      "learning_rate": 0.0001,
      "loss": 8.3837,
      "loss/crossentropy": 2.097426188737154,
      "loss/hidden": 3.803515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23504080064594746,
      "step": 10220
    },
    {
      "epoch": 0.341,
      "grad_norm": 34.75,
      "grad_norm_var": 5.630143229166666,
      "learning_rate": 0.0001,
      "loss": 8.3845,
      "loss/crossentropy": 2.030475867539644,
      "loss/hidden": 3.895703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2574477320536971,
      "step": 10230
    },
    {
      "epoch": 0.3413333333333333,
      "grad_norm": 29.75,
      "grad_norm_var": 4.81640625,
      "learning_rate": 0.0001,
      "loss": 8.3345,
      "loss/crossentropy": 2.1374482408165933,
      "loss/hidden": 3.755859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23863786160945893,
      "step": 10240
    },
    {
      "epoch": 0.3416666666666667,
      "grad_norm": 31.625,
      "grad_norm_var": 3.5625,
      "learning_rate": 0.0001,
      "loss": 8.4214,
      "loss/crossentropy": 1.949062729626894,
      "loss/hidden": 3.873828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24437980260699987,
      "step": 10250
    },
    {
      "epoch": 0.342,
      "grad_norm": 31.75,
      "grad_norm_var": 3.8447265625,
      "learning_rate": 0.0001,
      "loss": 8.4116,
      "loss/crossentropy": 2.06142435669899,
      "loss/hidden": 3.733984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21934528928250074,
      "step": 10260
    },
    {
      "epoch": 0.3423333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 4.991080729166667,
      "learning_rate": 0.0001,
      "loss": 8.3459,
      "loss/crossentropy": 2.0533831655979156,
      "loss/hidden": 3.821484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.237164250575006,
      "step": 10270
    },
    {
      "epoch": 0.3426666666666667,
      "grad_norm": 29.875,
      "grad_norm_var": 8.5125,
      "learning_rate": 0.0001,
      "loss": 8.4675,
      "loss/crossentropy": 2.220197274535894,
      "loss/hidden": 3.89140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.253680607303977,
      "step": 10280
    },
    {
      "epoch": 0.343,
      "grad_norm": 31.625,
      "grad_norm_var": 4.987239583333333,
      "learning_rate": 0.0001,
      "loss": 8.2682,
      "loss/crossentropy": 2.1430200926959513,
      "loss/hidden": 3.75703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22555206064134836,
      "step": 10290
    },
    {
      "epoch": 0.3433333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 4.96640625,
      "learning_rate": 0.0001,
      "loss": 8.3617,
      "loss/crossentropy": 2.2133467949926855,
      "loss/hidden": 3.903125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26156550645828247,
      "step": 10300
    },
    {
      "epoch": 0.3436666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 7.2212890625,
      "learning_rate": 0.0001,
      "loss": 8.2326,
      "loss/crossentropy": 2.02518198415637,
      "loss/hidden": 3.685546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21950181983411313,
      "step": 10310
    },
    {
      "epoch": 0.344,
      "grad_norm": 29.875,
      "grad_norm_var": 8.96015625,
      "learning_rate": 0.0001,
      "loss": 8.2243,
      "loss/crossentropy": 2.1252332836389543,
      "loss/hidden": 3.783203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23033270034939052,
      "step": 10320
    },
    {
      "epoch": 0.3443333333333333,
      "grad_norm": 28.25,
      "grad_norm_var": 7.640625,
      "learning_rate": 0.0001,
      "loss": 8.4185,
      "loss/crossentropy": 2.0800456672906877,
      "loss/hidden": 3.892578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25349009446799753,
      "step": 10330
    },
    {
      "epoch": 0.3446666666666667,
      "grad_norm": 6408896512.0,
      "grad_norm_var": 2.5671221312037934e+18,
      "learning_rate": 0.0001,
      "loss": 8.4544,
      "loss/crossentropy": 2.2498678863048553,
      "loss/hidden": 3.81015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24522239342331886,
      "step": 10340
    },
    {
      "epoch": 0.345,
      "grad_norm": 29.75,
      "grad_norm_var": 2.56712212992869e+18,
      "learning_rate": 0.0001,
      "loss": 8.332,
      "loss/crossentropy": 2.067190906405449,
      "loss/hidden": 3.79765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22377760540693997,
      "step": 10350
    },
    {
      "epoch": 0.3453333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 35.8744140625,
      "learning_rate": 0.0001,
      "loss": 8.3931,
      "loss/crossentropy": 2.3343340516090394,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23258175030350686,
      "step": 10360
    },
    {
      "epoch": 0.3456666666666667,
      "grad_norm": 30.125,
      "grad_norm_var": 5.64765625,
      "learning_rate": 0.0001,
      "loss": 8.2511,
      "loss/crossentropy": 2.0171373963356016,
      "loss/hidden": 3.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24750286806374788,
      "step": 10370
    },
    {
      "epoch": 0.346,
      "grad_norm": 34.0,
      "grad_norm_var": 2117.798372395833,
      "learning_rate": 0.0001,
      "loss": 8.4717,
      "loss/crossentropy": 2.027893168479204,
      "loss/hidden": 4.028125,
      "loss/jsd": 0.0,
      "loss/logits": 0.256832991912961,
      "step": 10380
    },
    {
      "epoch": 0.3463333333333333,
      "grad_norm": 33.75,
      "grad_norm_var": 2119.6337890625,
      "learning_rate": 0.0001,
      "loss": 8.4619,
      "loss/crossentropy": 2.106752772629261,
      "loss/hidden": 3.865625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2447080912068486,
      "step": 10390
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 32.5,
      "grad_norm_var": 10.728059895833333,
      "learning_rate": 0.0001,
      "loss": 8.4674,
      "loss/crossentropy": 2.150819255411625,
      "loss/hidden": 3.839453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2522192716598511,
      "step": 10400
    },
    {
      "epoch": 0.347,
      "grad_norm": 29.25,
      "grad_norm_var": 19.118489583333332,
      "learning_rate": 0.0001,
      "loss": 8.3815,
      "loss/crossentropy": 2.1638945795595648,
      "loss/hidden": 3.760546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2254624404013157,
      "step": 10410
    },
    {
      "epoch": 0.3473333333333333,
      "grad_norm": 27.625,
      "grad_norm_var": 5.62890625,
      "learning_rate": 0.0001,
      "loss": 8.2479,
      "loss/crossentropy": 2.0657031178474425,
      "loss/hidden": 3.637890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21996993869543074,
      "step": 10420
    },
    {
      "epoch": 0.3476666666666667,
      "grad_norm": 28.375,
      "grad_norm_var": 5.833072916666667,
      "learning_rate": 0.0001,
      "loss": 8.3344,
      "loss/crossentropy": 2.1299983762204646,
      "loss/hidden": 3.780859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21561280181631445,
      "step": 10430
    },
    {
      "epoch": 0.348,
      "grad_norm": 28.375,
      "grad_norm_var": 8.4150390625,
      "learning_rate": 0.0001,
      "loss": 8.3951,
      "loss/crossentropy": 2.1073717825114726,
      "loss/hidden": 3.808203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21989304553717376,
      "step": 10440
    },
    {
      "epoch": 0.34833333333333333,
      "grad_norm": 34.0,
      "grad_norm_var": 3.081184895833333,
      "learning_rate": 0.0001,
      "loss": 8.2967,
      "loss/crossentropy": 2.077288343012333,
      "loss/hidden": 3.78359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23938167467713356,
      "step": 10450
    },
    {
      "epoch": 0.3486666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 2.089583333333333,
      "learning_rate": 0.0001,
      "loss": 8.3636,
      "loss/crossentropy": 1.9518108278512956,
      "loss/hidden": 3.88125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2389603516086936,
      "step": 10460
    },
    {
      "epoch": 0.349,
      "grad_norm": 28.625,
      "grad_norm_var": 1.7738932291666667,
      "learning_rate": 0.0001,
      "loss": 8.4079,
      "loss/crossentropy": 2.0541266784071923,
      "loss/hidden": 3.709375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21510923374444246,
      "step": 10470
    },
    {
      "epoch": 0.34933333333333333,
      "grad_norm": 29.5,
      "grad_norm_var": 3.5259765625,
      "learning_rate": 0.0001,
      "loss": 8.3548,
      "loss/crossentropy": 1.9732642628252506,
      "loss/hidden": 3.90234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23084475416690112,
      "step": 10480
    },
    {
      "epoch": 0.3496666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 2.0927083333333334,
      "learning_rate": 0.0001,
      "loss": 8.245,
      "loss/crossentropy": 2.0425802804529667,
      "loss/hidden": 3.7640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2300992401316762,
      "step": 10490
    },
    {
      "epoch": 0.35,
      "grad_norm": 27.375,
      "grad_norm_var": 3.1681640625,
      "learning_rate": 0.0001,
      "loss": 8.3515,
      "loss/crossentropy": 2.1685428470373154,
      "loss/hidden": 3.887109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2667371932417154,
      "step": 10500
    },
    {
      "epoch": 0.35033333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 8.442708333333334,
      "learning_rate": 0.0001,
      "loss": 8.2839,
      "loss/crossentropy": 2.0770496785640717,
      "loss/hidden": 3.8609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23902000039815902,
      "step": 10510
    },
    {
      "epoch": 0.3506666666666667,
      "grad_norm": 32.0,
      "grad_norm_var": 8.070768229166667,
      "learning_rate": 0.0001,
      "loss": 8.2154,
      "loss/crossentropy": 2.2012623459100724,
      "loss/hidden": 3.900390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26947569735348226,
      "step": 10520
    },
    {
      "epoch": 0.351,
      "grad_norm": 31.875,
      "grad_norm_var": 6.551822916666667,
      "learning_rate": 0.0001,
      "loss": 8.5346,
      "loss/crossentropy": 2.1797248646616936,
      "loss/hidden": 3.939453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2714757215231657,
      "step": 10530
    },
    {
      "epoch": 0.35133333333333333,
      "grad_norm": 28.875,
      "grad_norm_var": 9.1759765625,
      "learning_rate": 0.0001,
      "loss": 8.271,
      "loss/crossentropy": 2.2226035714149477,
      "loss/hidden": 3.975,
      "loss/jsd": 0.0,
      "loss/logits": 0.2569460779428482,
      "step": 10540
    },
    {
      "epoch": 0.3516666666666667,
      "grad_norm": 34.0,
      "grad_norm_var": 9.7556640625,
      "learning_rate": 0.0001,
      "loss": 8.4072,
      "loss/crossentropy": 2.0563524261116983,
      "loss/hidden": 3.73046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22892842460423707,
      "step": 10550
    },
    {
      "epoch": 0.352,
      "grad_norm": 38.5,
      "grad_norm_var": 13.52265625,
      "learning_rate": 0.0001,
      "loss": 8.3639,
      "loss/crossentropy": 2.146382841467857,
      "loss/hidden": 3.823046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2412761567160487,
      "step": 10560
    },
    {
      "epoch": 0.35233333333333333,
      "grad_norm": 31.0,
      "grad_norm_var": 14.380143229166666,
      "learning_rate": 0.0001,
      "loss": 8.4058,
      "loss/crossentropy": 2.0560551561415195,
      "loss/hidden": 3.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22143340446054935,
      "step": 10570
    },
    {
      "epoch": 0.3526666666666667,
      "grad_norm": 31.375,
      "grad_norm_var": 6.331705729166667,
      "learning_rate": 0.0001,
      "loss": 8.4463,
      "loss/crossentropy": 1.9261908829212189,
      "loss/hidden": 3.851953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23094973117113113,
      "step": 10580
    },
    {
      "epoch": 0.353,
      "grad_norm": 31.125,
      "grad_norm_var": 765.9447916666667,
      "learning_rate": 0.0001,
      "loss": 8.561,
      "loss/crossentropy": 2.198425108194351,
      "loss/hidden": 3.90390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32166901491582395,
      "step": 10590
    },
    {
      "epoch": 0.35333333333333333,
      "grad_norm": 34.0,
      "grad_norm_var": 68.19557291666666,
      "learning_rate": 0.0001,
      "loss": 8.3153,
      "loss/crossentropy": 2.0817312106490133,
      "loss/hidden": 3.9421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24946041442453862,
      "step": 10600
    },
    {
      "epoch": 0.3536666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 3.442122395833333,
      "learning_rate": 0.0001,
      "loss": 8.2396,
      "loss/crossentropy": 2.0021930016577243,
      "loss/hidden": 3.927734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23456851877272128,
      "step": 10610
    },
    {
      "epoch": 0.354,
      "grad_norm": 31.25,
      "grad_norm_var": 2.9041015625,
      "learning_rate": 0.0001,
      "loss": 8.5516,
      "loss/crossentropy": 2.3048987478017806,
      "loss/hidden": 3.7765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2382359316572547,
      "step": 10620
    },
    {
      "epoch": 0.35433333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 2.2348307291666667,
      "learning_rate": 0.0001,
      "loss": 8.2786,
      "loss/crossentropy": 2.1949386417865755,
      "loss/hidden": 3.804296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2493376847356558,
      "step": 10630
    },
    {
      "epoch": 0.3546666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 3.965625,
      "learning_rate": 0.0001,
      "loss": 8.3273,
      "loss/crossentropy": 2.0018108122050764,
      "loss/hidden": 3.7875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21743584834039212,
      "step": 10640
    },
    {
      "epoch": 0.355,
      "grad_norm": 31.75,
      "grad_norm_var": 44.281184895833334,
      "learning_rate": 0.0001,
      "loss": 8.2713,
      "loss/crossentropy": 2.1437037006020545,
      "loss/hidden": 3.738671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23090928047895432,
      "step": 10650
    },
    {
      "epoch": 0.35533333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 3.9192575434663747e+18,
      "learning_rate": 0.0001,
      "loss": 8.478,
      "loss/crossentropy": 2.2309256963431836,
      "loss/hidden": 3.974609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2605215635150671,
      "step": 10660
    },
    {
      "epoch": 0.3556666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 12.66015625,
      "learning_rate": 0.0001,
      "loss": 8.3008,
      "loss/crossentropy": 2.087778661772609,
      "loss/hidden": 3.8953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24346806921530514,
      "step": 10670
    },
    {
      "epoch": 0.356,
      "grad_norm": 28.375,
      "grad_norm_var": 3.5434895833333333,
      "learning_rate": 0.0001,
      "loss": 8.4067,
      "loss/crossentropy": 2.0724117450416086,
      "loss/hidden": 3.762890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23170766066759824,
      "step": 10680
    },
    {
      "epoch": 0.35633333333333334,
      "grad_norm": 28.25,
      "grad_norm_var": 3.880143229166667,
      "learning_rate": 0.0001,
      "loss": 8.3141,
      "loss/crossentropy": 2.0804959647357464,
      "loss/hidden": 3.932421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26033860705792905,
      "step": 10690
    },
    {
      "epoch": 0.3566666666666667,
      "grad_norm": 31.375,
      "grad_norm_var": 2.2768229166666667,
      "learning_rate": 0.0001,
      "loss": 8.2118,
      "loss/crossentropy": 2.1898273028433324,
      "loss/hidden": 3.808203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23994966400787235,
      "step": 10700
    },
    {
      "epoch": 0.357,
      "grad_norm": 30.625,
      "grad_norm_var": 38.139322916666664,
      "learning_rate": 0.0001,
      "loss": 8.3548,
      "loss/crossentropy": 2.1299043744802475,
      "loss/hidden": 3.891796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25432286225259304,
      "step": 10710
    },
    {
      "epoch": 0.35733333333333334,
      "grad_norm": 30.5,
      "grad_norm_var": 2.2309895833333333,
      "learning_rate": 0.0001,
      "loss": 8.3522,
      "loss/crossentropy": 2.230180199444294,
      "loss/hidden": 3.7171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22721530161798,
      "step": 10720
    },
    {
      "epoch": 0.3576666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 7.738541666666666,
      "learning_rate": 0.0001,
      "loss": 8.23,
      "loss/crossentropy": 2.0474620938301085,
      "loss/hidden": 3.76640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2256452445872128,
      "step": 10730
    },
    {
      "epoch": 0.358,
      "grad_norm": 31.25,
      "grad_norm_var": 3.0249348958333333,
      "learning_rate": 0.0001,
      "loss": 8.3739,
      "loss/crossentropy": 2.152415704727173,
      "loss/hidden": 3.884765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2414580164477229,
      "step": 10740
    },
    {
      "epoch": 0.35833333333333334,
      "grad_norm": 35.5,
      "grad_norm_var": 4.0625,
      "learning_rate": 0.0001,
      "loss": 8.205,
      "loss/crossentropy": 2.3166534900665283,
      "loss/hidden": 3.880859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2524943361058831,
      "step": 10750
    },
    {
      "epoch": 0.3586666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 3.746875,
      "learning_rate": 0.0001,
      "loss": 8.3312,
      "loss/crossentropy": 2.152712790668011,
      "loss/hidden": 3.825,
      "loss/jsd": 0.0,
      "loss/logits": 0.2455398654565215,
      "step": 10760
    },
    {
      "epoch": 0.359,
      "grad_norm": 29.0,
      "grad_norm_var": 2.4900390625,
      "learning_rate": 0.0001,
      "loss": 8.3316,
      "loss/crossentropy": 2.1520379945635795,
      "loss/hidden": 3.7921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23001325819641352,
      "step": 10770
    },
    {
      "epoch": 0.35933333333333334,
      "grad_norm": 30.5,
      "grad_norm_var": 2.9306640625,
      "learning_rate": 0.0001,
      "loss": 8.2616,
      "loss/crossentropy": 1.945100226998329,
      "loss/hidden": 3.8171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23169657299295068,
      "step": 10780
    },
    {
      "epoch": 0.3596666666666667,
      "grad_norm": 59.0,
      "grad_norm_var": 58.0666015625,
      "learning_rate": 0.0001,
      "loss": 8.3974,
      "loss/crossentropy": 2.103043520450592,
      "loss/hidden": 3.84921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24081441648304464,
      "step": 10790
    },
    {
      "epoch": 0.36,
      "grad_norm": 29.0,
      "grad_norm_var": 59.16087239583333,
      "learning_rate": 0.0001,
      "loss": 8.2643,
      "loss/crossentropy": 1.9263419553637504,
      "loss/hidden": 3.848046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22828295342624189,
      "step": 10800
    },
    {
      "epoch": 0.36033333333333334,
      "grad_norm": 41.75,
      "grad_norm_var": 14.025,
      "learning_rate": 0.0001,
      "loss": 8.3654,
      "loss/crossentropy": 2.2317003183066846,
      "loss/hidden": 3.78828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23634406868368388,
      "step": 10810
    },
    {
      "epoch": 0.3606666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 11.925,
      "learning_rate": 0.0001,
      "loss": 8.3209,
      "loss/crossentropy": 2.0176270991563796,
      "loss/hidden": 3.842578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2656209450215101,
      "step": 10820
    },
    {
      "epoch": 0.361,
      "grad_norm": 29.875,
      "grad_norm_var": 3.6561848958333334,
      "learning_rate": 0.0001,
      "loss": 8.3232,
      "loss/crossentropy": 2.127125210314989,
      "loss/hidden": 3.6890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23250760212540628,
      "step": 10830
    },
    {
      "epoch": 0.36133333333333334,
      "grad_norm": 27.625,
      "grad_norm_var": 14.4447265625,
      "learning_rate": 0.0001,
      "loss": 8.3106,
      "loss/crossentropy": 2.065077592432499,
      "loss/hidden": 3.804296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22122176755219697,
      "step": 10840
    },
    {
      "epoch": 0.3616666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 14.9212890625,
      "learning_rate": 0.0001,
      "loss": 8.1455,
      "loss/crossentropy": 1.9944854885339738,
      "loss/hidden": 3.878515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2446516625583172,
      "step": 10850
    },
    {
      "epoch": 0.362,
      "grad_norm": 28.125,
      "grad_norm_var": 16.002018229166666,
      "learning_rate": 0.0001,
      "loss": 8.1836,
      "loss/crossentropy": 2.1445549219846725,
      "loss/hidden": 3.805078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24592317193746566,
      "step": 10860
    },
    {
      "epoch": 0.36233333333333334,
      "grad_norm": 32.0,
      "grad_norm_var": 4.886393229166667,
      "learning_rate": 0.0001,
      "loss": 8.3139,
      "loss/crossentropy": 2.0830292530357837,
      "loss/hidden": 3.759765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2338992802426219,
      "step": 10870
    },
    {
      "epoch": 0.3626666666666667,
      "grad_norm": 28.25,
      "grad_norm_var": 8.9744140625,
      "learning_rate": 0.0001,
      "loss": 8.3703,
      "loss/crossentropy": 2.074661585688591,
      "loss/hidden": 3.763671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2267523631453514,
      "step": 10880
    },
    {
      "epoch": 0.363,
      "grad_norm": 30.0,
      "grad_norm_var": 6.71015625,
      "learning_rate": 0.0001,
      "loss": 8.2861,
      "loss/crossentropy": 2.218615745007992,
      "loss/hidden": 3.708984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2329158153384924,
      "step": 10890
    },
    {
      "epoch": 0.36333333333333334,
      "grad_norm": 31.5,
      "grad_norm_var": 2.10390625,
      "learning_rate": 0.0001,
      "loss": 8.4114,
      "loss/crossentropy": 2.2118052423000334,
      "loss/hidden": 3.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24035598244518042,
      "step": 10900
    },
    {
      "epoch": 0.3636666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 6.5916015625,
      "learning_rate": 0.0001,
      "loss": 8.253,
      "loss/crossentropy": 1.9713818281888962,
      "loss/hidden": 3.73828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21810249648988247,
      "step": 10910
    },
    {
      "epoch": 0.364,
      "grad_norm": 28.125,
      "grad_norm_var": 3.3604166666666666,
      "learning_rate": 0.0001,
      "loss": 8.402,
      "loss/crossentropy": 2.087474272400141,
      "loss/hidden": 3.903515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25297512784600257,
      "step": 10920
    },
    {
      "epoch": 0.36433333333333334,
      "grad_norm": 29.0,
      "grad_norm_var": 2.8676432291666667,
      "learning_rate": 0.0001,
      "loss": 8.3376,
      "loss/crossentropy": 2.055064349621534,
      "loss/hidden": 3.871484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23781403247267008,
      "step": 10930
    },
    {
      "epoch": 0.36466666666666664,
      "grad_norm": 29.25,
      "grad_norm_var": 3.84140625,
      "learning_rate": 0.0001,
      "loss": 8.3393,
      "loss/crossentropy": 2.240050254762173,
      "loss/hidden": 3.837890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26323652667924763,
      "step": 10940
    },
    {
      "epoch": 0.365,
      "grad_norm": 31.875,
      "grad_norm_var": 5.914322916666666,
      "learning_rate": 0.0001,
      "loss": 8.4046,
      "loss/crossentropy": 2.0274403050541876,
      "loss/hidden": 3.884765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.255847645457834,
      "step": 10950
    },
    {
      "epoch": 0.36533333333333334,
      "grad_norm": 31.625,
      "grad_norm_var": 4.284375,
      "learning_rate": 0.0001,
      "loss": 8.2417,
      "loss/crossentropy": 2.148882707953453,
      "loss/hidden": 3.7375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22276342548429967,
      "step": 10960
    },
    {
      "epoch": 0.36566666666666664,
      "grad_norm": 34.75,
      "grad_norm_var": 4.983072916666667,
      "learning_rate": 0.0001,
      "loss": 8.2975,
      "loss/crossentropy": 2.1014214023947715,
      "loss/hidden": 3.73359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2284602228552103,
      "step": 10970
    },
    {
      "epoch": 0.366,
      "grad_norm": 32.0,
      "grad_norm_var": 2.1797421953052575e+18,
      "learning_rate": 0.0001,
      "loss": 8.3736,
      "loss/crossentropy": 2.01134799271822,
      "loss/hidden": 3.832421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23655065074563025,
      "step": 10980
    },
    {
      "epoch": 0.36633333333333334,
      "grad_norm": 29.75,
      "grad_norm_var": 8.880989583333333,
      "learning_rate": 0.0001,
      "loss": 8.3184,
      "loss/crossentropy": 2.019283553212881,
      "loss/hidden": 3.891015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24222001079469918,
      "step": 10990
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 34.75,
      "grad_norm_var": 4.905989583333334,
      "learning_rate": 0.0001,
      "loss": 8.1939,
      "loss/crossentropy": 2.0408636704087257,
      "loss/hidden": 3.95625,
      "loss/jsd": 0.0,
      "loss/logits": 0.257934401743114,
      "step": 11000
    },
    {
      "epoch": 0.367,
      "grad_norm": 31.125,
      "grad_norm_var": 6.711393229166666,
      "learning_rate": 0.0001,
      "loss": 8.3125,
      "loss/crossentropy": 1.987822836637497,
      "loss/hidden": 3.8765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24592833667993547,
      "step": 11010
    },
    {
      "epoch": 0.36733333333333335,
      "grad_norm": 28.0,
      "grad_norm_var": 10.1884765625,
      "learning_rate": 0.0001,
      "loss": 8.2068,
      "loss/crossentropy": 1.934238361567259,
      "loss/hidden": 3.6390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20752198286354542,
      "step": 11020
    },
    {
      "epoch": 0.36766666666666664,
      "grad_norm": 30.75,
      "grad_norm_var": 14.797330729166667,
      "learning_rate": 0.0001,
      "loss": 8.3522,
      "loss/crossentropy": 2.091546893119812,
      "loss/hidden": 3.8109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22276817485690117,
      "step": 11030
    },
    {
      "epoch": 0.368,
      "grad_norm": 32.25,
      "grad_norm_var": 10.873372395833334,
      "learning_rate": 0.0001,
      "loss": 8.26,
      "loss/crossentropy": 2.046231422573328,
      "loss/hidden": 3.66796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.218076004460454,
      "step": 11040
    },
    {
      "epoch": 0.36833333333333335,
      "grad_norm": 29.625,
      "grad_norm_var": 9.6994140625,
      "learning_rate": 0.0001,
      "loss": 8.2113,
      "loss/crossentropy": 2.1118013873696326,
      "loss/hidden": 3.73828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22814447209239005,
      "step": 11050
    },
    {
      "epoch": 0.36866666666666664,
      "grad_norm": 32.75,
      "grad_norm_var": 5.477018229166666,
      "learning_rate": 0.0001,
      "loss": 8.3915,
      "loss/crossentropy": 2.138951501250267,
      "loss/hidden": 3.796484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2464024931192398,
      "step": 11060
    },
    {
      "epoch": 0.369,
      "grad_norm": 32.5,
      "grad_norm_var": 4.268489583333333,
      "learning_rate": 0.0001,
      "loss": 8.2656,
      "loss/crossentropy": 2.0544290356338024,
      "loss/hidden": 3.797265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21736350897699594,
      "step": 11070
    },
    {
      "epoch": 0.36933333333333335,
      "grad_norm": 30.625,
      "grad_norm_var": 2.41640625,
      "learning_rate": 0.0001,
      "loss": 8.2015,
      "loss/crossentropy": 2.0753560826182365,
      "loss/hidden": 3.994921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25065676774829626,
      "step": 11080
    },
    {
      "epoch": 0.36966666666666664,
      "grad_norm": 32.5,
      "grad_norm_var": 2.3811848958333335,
      "learning_rate": 0.0001,
      "loss": 8.3318,
      "loss/crossentropy": 2.3124043948948385,
      "loss/hidden": 3.866015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25761293675750496,
      "step": 11090
    },
    {
      "epoch": 0.37,
      "grad_norm": 29.375,
      "grad_norm_var": 75.17057291666667,
      "learning_rate": 0.0001,
      "loss": 8.3787,
      "loss/crossentropy": 2.0899481564760207,
      "loss/hidden": 3.833984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24109712056815624,
      "step": 11100
    },
    {
      "epoch": 0.37033333333333335,
      "grad_norm": 29.5,
      "grad_norm_var": 87.39973958333333,
      "learning_rate": 0.0001,
      "loss": 8.2869,
      "loss/crossentropy": 2.068728582933545,
      "loss/hidden": 3.794921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21987394848838449,
      "step": 11110
    },
    {
      "epoch": 0.37066666666666664,
      "grad_norm": 30.875,
      "grad_norm_var": 20.74765625,
      "learning_rate": 0.0001,
      "loss": 8.3058,
      "loss/crossentropy": 2.1063128843903542,
      "loss/hidden": 3.7140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22465858031064273,
      "step": 11120
    },
    {
      "epoch": 0.371,
      "grad_norm": 31.125,
      "grad_norm_var": 34.37805989583333,
      "learning_rate": 0.0001,
      "loss": 8.2634,
      "loss/crossentropy": 2.128019214421511,
      "loss/hidden": 3.806640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2511159829795361,
      "step": 11130
    },
    {
      "epoch": 0.37133333333333335,
      "grad_norm": 28.875,
      "grad_norm_var": 216.6681640625,
      "learning_rate": 0.0001,
      "loss": 8.3359,
      "loss/crossentropy": 2.0605734646320344,
      "loss/hidden": 3.862109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23643396981060505,
      "step": 11140
    },
    {
      "epoch": 0.37166666666666665,
      "grad_norm": 29.75,
      "grad_norm_var": 218.5197265625,
      "learning_rate": 0.0001,
      "loss": 8.3266,
      "loss/crossentropy": 1.8941866405308248,
      "loss/hidden": 4.06171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2489516731351614,
      "step": 11150
    },
    {
      "epoch": 0.372,
      "grad_norm": 31.75,
      "grad_norm_var": 2.745247395833333,
      "learning_rate": 0.0001,
      "loss": 8.2646,
      "loss/crossentropy": 2.023110543191433,
      "loss/hidden": 3.8078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23438771143555642,
      "step": 11160
    },
    {
      "epoch": 0.37233333333333335,
      "grad_norm": 34.5,
      "grad_norm_var": 5.59140625,
      "learning_rate": 0.0001,
      "loss": 8.293,
      "loss/crossentropy": 2.115256902575493,
      "loss/hidden": 3.8171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23501987420022488,
      "step": 11170
    },
    {
      "epoch": 0.37266666666666665,
      "grad_norm": 33.0,
      "grad_norm_var": 5.412239583333333,
      "learning_rate": 0.0001,
      "loss": 8.2813,
      "loss/crossentropy": 2.183938892185688,
      "loss/hidden": 3.8171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23923480361700059,
      "step": 11180
    },
    {
      "epoch": 0.373,
      "grad_norm": 29.5,
      "grad_norm_var": 4.455989583333333,
      "learning_rate": 0.0001,
      "loss": 8.2506,
      "loss/crossentropy": 2.09958486109972,
      "loss/hidden": 3.836328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24175492376089097,
      "step": 11190
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 29.375,
      "grad_norm_var": 3.034375,
      "learning_rate": 0.0001,
      "loss": 8.1771,
      "loss/crossentropy": 2.150550900399685,
      "loss/hidden": 3.712109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2199710313230753,
      "step": 11200
    },
    {
      "epoch": 0.37366666666666665,
      "grad_norm": 39.0,
      "grad_norm_var": 7.083072916666667,
      "learning_rate": 0.0001,
      "loss": 8.3038,
      "loss/crossentropy": 2.160426365584135,
      "loss/hidden": 3.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22729940414428712,
      "step": 11210
    },
    {
      "epoch": 0.374,
      "grad_norm": 29.625,
      "grad_norm_var": 8.17890625,
      "learning_rate": 0.0001,
      "loss": 8.3813,
      "loss/crossentropy": 2.2687479466199876,
      "loss/hidden": 3.866796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2643072698265314,
      "step": 11220
    },
    {
      "epoch": 0.37433333333333335,
      "grad_norm": 33.25,
      "grad_norm_var": 4.737434895833333,
      "learning_rate": 0.0001,
      "loss": 8.2897,
      "loss/crossentropy": 1.9880081087350845,
      "loss/hidden": 3.82265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23600170221179723,
      "step": 11230
    },
    {
      "epoch": 0.37466666666666665,
      "grad_norm": 30.25,
      "grad_norm_var": 2.0268229166666667,
      "learning_rate": 0.0001,
      "loss": 8.2243,
      "loss/crossentropy": 2.157718874514103,
      "loss/hidden": 3.725390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22776034101843834,
      "step": 11240
    },
    {
      "epoch": 0.375,
      "grad_norm": 31.0,
      "grad_norm_var": 1.9270182291666667,
      "learning_rate": 0.0001,
      "loss": 8.2751,
      "loss/crossentropy": 2.1132646039128304,
      "loss/hidden": 3.725,
      "loss/jsd": 0.0,
      "loss/logits": 0.22339010071009396,
      "step": 11250
    },
    {
      "epoch": 0.37533333333333335,
      "grad_norm": 36.75,
      "grad_norm_var": 7.060872395833333,
      "learning_rate": 0.0001,
      "loss": 8.4215,
      "loss/crossentropy": 2.206932783126831,
      "loss/hidden": 3.808203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2356038186699152,
      "step": 11260
    },
    {
      "epoch": 0.37566666666666665,
      "grad_norm": 40.5,
      "grad_norm_var": 14.249739583333334,
      "learning_rate": 0.0001,
      "loss": 8.3276,
      "loss/crossentropy": 2.2165247052907944,
      "loss/hidden": 3.765234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23299887999892235,
      "step": 11270
    },
    {
      "epoch": 0.376,
      "grad_norm": 34.25,
      "grad_norm_var": 23.989518229166666,
      "learning_rate": 0.0001,
      "loss": 8.202,
      "loss/crossentropy": 2.1586028307676317,
      "loss/hidden": 3.811328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23767958618700505,
      "step": 11280
    },
    {
      "epoch": 0.37633333333333335,
      "grad_norm": 28.25,
      "grad_norm_var": 6.742122395833333,
      "learning_rate": 0.0001,
      "loss": 8.2606,
      "loss/crossentropy": 2.0374640226364136,
      "loss/hidden": 3.73203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21241307370364665,
      "step": 11290
    },
    {
      "epoch": 0.37666666666666665,
      "grad_norm": 32.25,
      "grad_norm_var": 1.2348307291666667,
      "learning_rate": 0.0001,
      "loss": 8.2161,
      "loss/crossentropy": 2.06580873131752,
      "loss/hidden": 3.783984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25028328634798525,
      "step": 11300
    },
    {
      "epoch": 0.377,
      "grad_norm": 28.875,
      "grad_norm_var": 31.407747395833333,
      "learning_rate": 0.0001,
      "loss": 8.1998,
      "loss/crossentropy": 2.120278796553612,
      "loss/hidden": 3.77578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24368874300271273,
      "step": 11310
    },
    {
      "epoch": 0.37733333333333335,
      "grad_norm": 31.125,
      "grad_norm_var": 14.039322916666666,
      "learning_rate": 0.0001,
      "loss": 8.3848,
      "loss/crossentropy": 2.0408181294798853,
      "loss/hidden": 3.86796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23626107163727283,
      "step": 11320
    },
    {
      "epoch": 0.37766666666666665,
      "grad_norm": 28.25,
      "grad_norm_var": 8.001497395833333,
      "learning_rate": 0.0001,
      "loss": 8.1908,
      "loss/crossentropy": 2.026593156158924,
      "loss/hidden": 3.78359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21986434515565634,
      "step": 11330
    },
    {
      "epoch": 0.378,
      "grad_norm": 28.375,
      "grad_norm_var": 3.3416015625,
      "learning_rate": 0.0001,
      "loss": 8.1949,
      "loss/crossentropy": 2.04437660574913,
      "loss/hidden": 3.7546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2269467730075121,
      "step": 11340
    },
    {
      "epoch": 0.37833333333333335,
      "grad_norm": 28.0,
      "grad_norm_var": 3.505989583333333,
      "learning_rate": 0.0001,
      "loss": 8.2826,
      "loss/crossentropy": 2.074940774589777,
      "loss/hidden": 3.762109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2203363472595811,
      "step": 11350
    },
    {
      "epoch": 0.37866666666666665,
      "grad_norm": 31.375,
      "grad_norm_var": 3.77890625,
      "learning_rate": 0.0001,
      "loss": 8.0388,
      "loss/crossentropy": 2.0113267697393895,
      "loss/hidden": 3.8703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2317951550707221,
      "step": 11360
    },
    {
      "epoch": 0.379,
      "grad_norm": 30.75,
      "grad_norm_var": 3.2884765625,
      "learning_rate": 0.0001,
      "loss": 8.212,
      "loss/crossentropy": 2.1366314753890037,
      "loss/hidden": 3.79921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2496491651982069,
      "step": 11370
    },
    {
      "epoch": 0.37933333333333336,
      "grad_norm": 31.75,
      "grad_norm_var": 8.070572916666666,
      "learning_rate": 0.0001,
      "loss": 8.256,
      "loss/crossentropy": 1.991414950788021,
      "loss/hidden": 3.87890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23439864348620176,
      "step": 11380
    },
    {
      "epoch": 0.37966666666666665,
      "grad_norm": 30.625,
      "grad_norm_var": 6.458268229166666,
      "learning_rate": 0.0001,
      "loss": 8.2754,
      "loss/crossentropy": 2.055978857725859,
      "loss/hidden": 3.683984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20942887850105762,
      "step": 11390
    },
    {
      "epoch": 0.38,
      "grad_norm": 29.75,
      "grad_norm_var": 2.795768229166667,
      "learning_rate": 0.0001,
      "loss": 8.2368,
      "loss/crossentropy": 2.2677480787038804,
      "loss/hidden": 3.74296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24482562113553286,
      "step": 11400
    },
    {
      "epoch": 0.38033333333333336,
      "grad_norm": 29.875,
      "grad_norm_var": 6.1806640625,
      "learning_rate": 0.0001,
      "loss": 8.3087,
      "loss/crossentropy": 2.010858987271786,
      "loss/hidden": 3.876171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2329118952155113,
      "step": 11410
    },
    {
      "epoch": 0.38066666666666665,
      "grad_norm": 29.5,
      "grad_norm_var": 3.107291666666667,
      "learning_rate": 0.0001,
      "loss": 8.3397,
      "loss/crossentropy": 2.19465371966362,
      "loss/hidden": 3.771484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24298481158912183,
      "step": 11420
    },
    {
      "epoch": 0.381,
      "grad_norm": 29.625,
      "grad_norm_var": 3.9291015625,
      "learning_rate": 0.0001,
      "loss": 8.3047,
      "loss/crossentropy": 2.1756315886974336,
      "loss/hidden": 3.7765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23532975129783154,
      "step": 11430
    },
    {
      "epoch": 0.38133333333333336,
      "grad_norm": 32.75,
      "grad_norm_var": 2.5580729166666667,
      "learning_rate": 0.0001,
      "loss": 8.3201,
      "loss/crossentropy": 2.1976757258176804,
      "loss/hidden": 3.82734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2476160578429699,
      "step": 11440
    },
    {
      "epoch": 0.38166666666666665,
      "grad_norm": 5838471168.0,
      "grad_norm_var": 2.130484076579337e+18,
      "learning_rate": 0.0001,
      "loss": 8.2311,
      "loss/crossentropy": 2.0670726232230665,
      "loss/hidden": 3.984765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22541351839900017,
      "step": 11450
    },
    {
      "epoch": 0.382,
      "grad_norm": 29.0,
      "grad_norm_var": 2.1304840749737574e+18,
      "learning_rate": 0.0001,
      "loss": 8.1004,
      "loss/crossentropy": 2.2240239530801773,
      "loss/hidden": 3.746484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23139581680297852,
      "step": 11460
    },
    {
      "epoch": 0.38233333333333336,
      "grad_norm": 29.5,
      "grad_norm_var": 35.31555989583333,
      "learning_rate": 0.0001,
      "loss": 8.2446,
      "loss/crossentropy": 2.029728998243809,
      "loss/hidden": 3.733203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22069137105718256,
      "step": 11470
    },
    {
      "epoch": 0.38266666666666665,
      "grad_norm": 30.125,
      "grad_norm_var": 2.24765625,
      "learning_rate": 0.0001,
      "loss": 8.1198,
      "loss/crossentropy": 1.9788580626249312,
      "loss/hidden": 3.730078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21759489141404628,
      "step": 11480
    },
    {
      "epoch": 0.383,
      "grad_norm": 31.5,
      "grad_norm_var": 2.2822916666666666,
      "learning_rate": 0.0001,
      "loss": 8.1322,
      "loss/crossentropy": 2.1184426814317705,
      "loss/hidden": 3.819140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23590471846982836,
      "step": 11490
    },
    {
      "epoch": 0.38333333333333336,
      "grad_norm": 29.25,
      "grad_norm_var": 2.4567057291666665,
      "learning_rate": 0.0001,
      "loss": 8.3504,
      "loss/crossentropy": 2.023914510011673,
      "loss/hidden": 3.8296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23768907226622105,
      "step": 11500
    },
    {
      "epoch": 0.38366666666666666,
      "grad_norm": 30.5,
      "grad_norm_var": 34.16875,
      "learning_rate": 0.0001,
      "loss": 8.3174,
      "loss/crossentropy": 1.9882623553276062,
      "loss/hidden": 3.70859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20902501344680785,
      "step": 11510
    },
    {
      "epoch": 0.384,
      "grad_norm": 31.875,
      "grad_norm_var": 37.2625,
      "learning_rate": 0.0001,
      "loss": 8.3973,
      "loss/crossentropy": 1.9671563521027564,
      "loss/hidden": 3.816796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21824515145272017,
      "step": 11520
    },
    {
      "epoch": 0.38433333333333336,
      "grad_norm": 36.0,
      "grad_norm_var": 9.521809895833334,
      "learning_rate": 0.0001,
      "loss": 8.2993,
      "loss/crossentropy": 2.104415476322174,
      "loss/hidden": 3.745703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24023280292749405,
      "step": 11530
    },
    {
      "epoch": 0.38466666666666666,
      "grad_norm": 30.375,
      "grad_norm_var": 6.6275390625,
      "learning_rate": 0.0001,
      "loss": 8.2753,
      "loss/crossentropy": 2.1653599768877028,
      "loss/hidden": 3.816796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22879305072128772,
      "step": 11540
    },
    {
      "epoch": 0.385,
      "grad_norm": 30.125,
      "grad_norm_var": 6.420572916666667,
      "learning_rate": 0.0001,
      "loss": 8.2014,
      "loss/crossentropy": 2.0401563957333564,
      "loss/hidden": 3.77890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23115058969706298,
      "step": 11550
    },
    {
      "epoch": 0.38533333333333336,
      "grad_norm": 29.25,
      "grad_norm_var": 10.065559895833333,
      "learning_rate": 0.0001,
      "loss": 8.3626,
      "loss/crossentropy": 2.2447339951992036,
      "loss/hidden": 3.770703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2418015170842409,
      "step": 11560
    },
    {
      "epoch": 0.38566666666666666,
      "grad_norm": 32.75,
      "grad_norm_var": 3.3020833333333335,
      "learning_rate": 0.0001,
      "loss": 8.4421,
      "loss/crossentropy": 2.1326376996934413,
      "loss/hidden": 3.803515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24543905295431614,
      "step": 11570
    },
    {
      "epoch": 0.386,
      "grad_norm": 30.625,
      "grad_norm_var": 3.28125,
      "learning_rate": 0.0001,
      "loss": 8.2912,
      "loss/crossentropy": 2.099239933490753,
      "loss/hidden": 3.776953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.235281278192997,
      "step": 11580
    },
    {
      "epoch": 0.3863333333333333,
      "grad_norm": 35.0,
      "grad_norm_var": 12.728580729166667,
      "learning_rate": 0.0001,
      "loss": 8.3226,
      "loss/crossentropy": 2.091626935452223,
      "loss/hidden": 3.803515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22663789633661507,
      "step": 11590
    },
    {
      "epoch": 0.38666666666666666,
      "grad_norm": 31.375,
      "grad_norm_var": 4.16015625,
      "learning_rate": 0.0001,
      "loss": 8.2711,
      "loss/crossentropy": 1.935661745071411,
      "loss/hidden": 3.773046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22390243038535118,
      "step": 11600
    },
    {
      "epoch": 0.387,
      "grad_norm": 42.25,
      "grad_norm_var": 18.571809895833333,
      "learning_rate": 0.0001,
      "loss": 8.3944,
      "loss/crossentropy": 2.2436830163002015,
      "loss/hidden": 3.830078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26995023861527445,
      "step": 11610
    },
    {
      "epoch": 0.3873333333333333,
      "grad_norm": 36.25,
      "grad_norm_var": 19.981705729166666,
      "learning_rate": 0.0001,
      "loss": 8.2244,
      "loss/crossentropy": 2.096161872893572,
      "loss/hidden": 3.787109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25067653246223925,
      "step": 11620
    },
    {
      "epoch": 0.38766666666666666,
      "grad_norm": 31.375,
      "grad_norm_var": 7.373893229166667,
      "learning_rate": 0.0001,
      "loss": 8.3287,
      "loss/crossentropy": 2.2269149988889696,
      "loss/hidden": 3.855859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2346229925751686,
      "step": 11630
    },
    {
      "epoch": 0.388,
      "grad_norm": 31.75,
      "grad_norm_var": 4.336458333333334,
      "learning_rate": 0.0001,
      "loss": 8.3193,
      "loss/crossentropy": 2.1625199913978577,
      "loss/hidden": 3.838671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24539714939892293,
      "step": 11640
    },
    {
      "epoch": 0.3883333333333333,
      "grad_norm": 33.5,
      "grad_norm_var": 24.7009765625,
      "learning_rate": 0.0001,
      "loss": 8.4532,
      "loss/crossentropy": 2.1474158462136983,
      "loss/hidden": 3.900390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24705803375691177,
      "step": 11650
    },
    {
      "epoch": 0.38866666666666666,
      "grad_norm": 30.0,
      "grad_norm_var": 4.01875,
      "learning_rate": 0.0001,
      "loss": 8.1543,
      "loss/crossentropy": 2.1757007278501987,
      "loss/hidden": 3.7453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23021320514380933,
      "step": 11660
    },
    {
      "epoch": 0.389,
      "grad_norm": 32.25,
      "grad_norm_var": 13.9056640625,
      "learning_rate": 0.0001,
      "loss": 8.3819,
      "loss/crossentropy": 2.0909801930189134,
      "loss/hidden": 3.8921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25553538724780084,
      "step": 11670
    },
    {
      "epoch": 0.3893333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 13.77265625,
      "learning_rate": 0.0001,
      "loss": 8.342,
      "loss/crossentropy": 2.209575629234314,
      "loss/hidden": 3.7796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24838075898587703,
      "step": 11680
    },
    {
      "epoch": 0.38966666666666666,
      "grad_norm": 32.0,
      "grad_norm_var": 2.9744140625,
      "learning_rate": 0.0001,
      "loss": 8.249,
      "loss/crossentropy": 2.150561396032572,
      "loss/hidden": 3.758984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23041013162583113,
      "step": 11690
    },
    {
      "epoch": 0.39,
      "grad_norm": 28.5,
      "grad_norm_var": 2.283072916666667,
      "learning_rate": 0.0001,
      "loss": 8.3467,
      "loss/crossentropy": 1.9362058877944945,
      "loss/hidden": 3.861328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2275281075388193,
      "step": 11700
    },
    {
      "epoch": 0.3903333333333333,
      "grad_norm": 30.25,
      "grad_norm_var": 9.784375,
      "learning_rate": 0.0001,
      "loss": 8.2697,
      "loss/crossentropy": 2.184156297147274,
      "loss/hidden": 3.823046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.227661694213748,
      "step": 11710
    },
    {
      "epoch": 0.39066666666666666,
      "grad_norm": 30.0,
      "grad_norm_var": 7.74140625,
      "learning_rate": 0.0001,
      "loss": 8.2916,
      "loss/crossentropy": 2.005098359286785,
      "loss/hidden": 3.771875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22573864944279193,
      "step": 11720
    },
    {
      "epoch": 0.391,
      "grad_norm": 39.0,
      "grad_norm_var": 8.258333333333333,
      "learning_rate": 0.0001,
      "loss": 8.2232,
      "loss/crossentropy": 1.9749820090830326,
      "loss/hidden": 3.86328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2378404688090086,
      "step": 11730
    },
    {
      "epoch": 0.3913333333333333,
      "grad_norm": 29.5,
      "grad_norm_var": 9.064322916666667,
      "learning_rate": 0.0001,
      "loss": 8.2125,
      "loss/crossentropy": 2.0756162479519844,
      "loss/hidden": 3.665234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22730147559195757,
      "step": 11740
    },
    {
      "epoch": 0.39166666666666666,
      "grad_norm": 30.75,
      "grad_norm_var": 6.217708333333333,
      "learning_rate": 0.0001,
      "loss": 8.2565,
      "loss/crossentropy": 2.1849037185311317,
      "loss/hidden": 3.685546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2365235961973667,
      "step": 11750
    },
    {
      "epoch": 0.392,
      "grad_norm": 30.25,
      "grad_norm_var": 2.765625,
      "learning_rate": 0.0001,
      "loss": 8.2262,
      "loss/crossentropy": 2.0965361006557943,
      "loss/hidden": 3.73515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2350387828424573,
      "step": 11760
    },
    {
      "epoch": 0.3923333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 1.9030598958333333,
      "learning_rate": 0.0001,
      "loss": 8.2198,
      "loss/crossentropy": 2.1148156762123107,
      "loss/hidden": 3.747265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24504089988768102,
      "step": 11770
    },
    {
      "epoch": 0.39266666666666666,
      "grad_norm": 30.75,
      "grad_norm_var": 1.6375,
      "learning_rate": 0.0001,
      "loss": 8.1997,
      "loss/crossentropy": 1.9177335992455482,
      "loss/hidden": 3.763671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22061962708830835,
      "step": 11780
    },
    {
      "epoch": 0.393,
      "grad_norm": 30.0,
      "grad_norm_var": 2.4176432291666665,
      "learning_rate": 0.0001,
      "loss": 8.1247,
      "loss/crossentropy": 1.9748799093067646,
      "loss/hidden": 3.68125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21441790107637643,
      "step": 11790
    },
    {
      "epoch": 0.3933333333333333,
      "grad_norm": 28.25,
      "grad_norm_var": 4.838997395833333,
      "learning_rate": 0.0001,
      "loss": 8.167,
      "loss/crossentropy": 2.2271966516971586,
      "loss/hidden": 3.799609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25528619475662706,
      "step": 11800
    },
    {
      "epoch": 0.39366666666666666,
      "grad_norm": 33.75,
      "grad_norm_var": 5.270768229166666,
      "learning_rate": 0.0001,
      "loss": 8.2939,
      "loss/crossentropy": 2.261426217854023,
      "loss/hidden": 3.82578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2428593784570694,
      "step": 11810
    },
    {
      "epoch": 0.394,
      "grad_norm": 34.25,
      "grad_norm_var": 10.937434895833333,
      "learning_rate": 0.0001,
      "loss": 8.4139,
      "loss/crossentropy": 1.9368678316473962,
      "loss/hidden": 3.75390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22458538115024568,
      "step": 11820
    },
    {
      "epoch": 0.3943333333333333,
      "grad_norm": 28.5,
      "grad_norm_var": 44247710555649.48,
      "learning_rate": 0.0001,
      "loss": 8.368,
      "loss/crossentropy": 2.1160020515322686,
      "loss/hidden": 3.730078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2263868011534214,
      "step": 11830
    },
    {
      "epoch": 0.39466666666666667,
      "grad_norm": 27.625,
      "grad_norm_var": 96.88098958333333,
      "learning_rate": 0.0001,
      "loss": 8.2835,
      "loss/crossentropy": 2.120930030941963,
      "loss/hidden": 3.69921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21769896019250154,
      "step": 11840
    },
    {
      "epoch": 0.395,
      "grad_norm": 30.375,
      "grad_norm_var": 4.537955729166667,
      "learning_rate": 0.0001,
      "loss": 8.0825,
      "loss/crossentropy": 2.06858219653368,
      "loss/hidden": 3.687890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21344130001962186,
      "step": 11850
    },
    {
      "epoch": 0.3953333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 12.7337890625,
      "learning_rate": 0.0001,
      "loss": 8.3254,
      "loss/crossentropy": 2.1121141463518143,
      "loss/hidden": 3.840234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23941405918449163,
      "step": 11860
    },
    {
      "epoch": 0.39566666666666667,
      "grad_norm": 32.0,
      "grad_norm_var": 2.2372395833333334,
      "learning_rate": 0.0001,
      "loss": 8.3672,
      "loss/crossentropy": 2.1878841519355774,
      "loss/hidden": 3.74921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22403320614248515,
      "step": 11870
    },
    {
      "epoch": 0.396,
      "grad_norm": 30.25,
      "grad_norm_var": 3.2372395833333334,
      "learning_rate": 0.0001,
      "loss": 8.4055,
      "loss/crossentropy": 2.1782354429364204,
      "loss/hidden": 3.84921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2412811905145645,
      "step": 11880
    },
    {
      "epoch": 0.3963333333333333,
      "grad_norm": 29.0,
      "grad_norm_var": 5.423958333333333,
      "learning_rate": 0.0001,
      "loss": 8.162,
      "loss/crossentropy": 1.9386512018740176,
      "loss/hidden": 3.79765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23406942784786225,
      "step": 11890
    },
    {
      "epoch": 0.39666666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 7.05,
      "learning_rate": 0.0001,
      "loss": 8.3352,
      "loss/crossentropy": 2.165928477048874,
      "loss/hidden": 3.92890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2521603927016258,
      "step": 11900
    },
    {
      "epoch": 0.397,
      "grad_norm": 30.875,
      "grad_norm_var": 5.3822265625,
      "learning_rate": 0.0001,
      "loss": 8.2937,
      "loss/crossentropy": 2.1375706143677236,
      "loss/hidden": 3.666796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22246642410755157,
      "step": 11910
    },
    {
      "epoch": 0.3973333333333333,
      "grad_norm": 29.5,
      "grad_norm_var": 2.851822916666667,
      "learning_rate": 0.0001,
      "loss": 8.2117,
      "loss/crossentropy": 2.0515445560216903,
      "loss/hidden": 3.798828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2385630363598466,
      "step": 11920
    },
    {
      "epoch": 0.39766666666666667,
      "grad_norm": 32.0,
      "grad_norm_var": 2.3583333333333334,
      "learning_rate": 0.0001,
      "loss": 8.1148,
      "loss/crossentropy": 2.233632105588913,
      "loss/hidden": 3.760546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24521742388606071,
      "step": 11930
    },
    {
      "epoch": 0.398,
      "grad_norm": 31.75,
      "grad_norm_var": 4.1587890625,
      "learning_rate": 0.0001,
      "loss": 8.3179,
      "loss/crossentropy": 2.2155081748962404,
      "loss/hidden": 3.841796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2516425810754299,
      "step": 11940
    },
    {
      "epoch": 0.3983333333333333,
      "grad_norm": 31.875,
      "grad_norm_var": 6.0322265625,
      "learning_rate": 0.0001,
      "loss": 8.3005,
      "loss/crossentropy": 2.1274189479649066,
      "loss/hidden": 3.746484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24990401780232788,
      "step": 11950
    },
    {
      "epoch": 0.39866666666666667,
      "grad_norm": 53.75,
      "grad_norm_var": 36.696875,
      "learning_rate": 0.0001,
      "loss": 8.0809,
      "loss/crossentropy": 2.0530085660517217,
      "loss/hidden": 3.639453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21376553494483233,
      "step": 11960
    },
    {
      "epoch": 0.399,
      "grad_norm": 29.875,
      "grad_norm_var": 36.781184895833334,
      "learning_rate": 0.0001,
      "loss": 8.1538,
      "loss/crossentropy": 2.0867031171917914,
      "loss/hidden": 3.821484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23751907888799906,
      "step": 11970
    },
    {
      "epoch": 0.3993333333333333,
      "grad_norm": 28.25,
      "grad_norm_var": 2.7080729166666666,
      "learning_rate": 0.0001,
      "loss": 8.0891,
      "loss/crossentropy": 2.2460917532444,
      "loss/hidden": 3.734765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22936972938477992,
      "step": 11980
    },
    {
      "epoch": 0.39966666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 14.363997395833334,
      "learning_rate": 0.0001,
      "loss": 8.2289,
      "loss/crossentropy": 2.11966609954834,
      "loss/hidden": 3.81796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25193934664130213,
      "step": 11990
    },
    {
      "epoch": 0.4,
      "grad_norm": 31.25,
      "grad_norm_var": 11.431705729166667,
      "learning_rate": 0.0001,
      "loss": 8.3615,
      "loss/crossentropy": 1.9913646757602692,
      "loss/hidden": 3.76875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2379540206864476,
      "step": 12000
    },
    {
      "epoch": 0.4003333333333333,
      "grad_norm": 34.25,
      "grad_norm_var": 2.90625,
      "learning_rate": 0.0001,
      "loss": 8.3603,
      "loss/crossentropy": 2.265652423352003,
      "loss/hidden": 3.737890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23408753713592886,
      "step": 12010
    },
    {
      "epoch": 0.40066666666666667,
      "grad_norm": 33.75,
      "grad_norm_var": 5.2181640625,
      "learning_rate": 0.0001,
      "loss": 8.2743,
      "loss/crossentropy": 2.255320507287979,
      "loss/hidden": 3.74375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23977783247828482,
      "step": 12020
    },
    {
      "epoch": 0.401,
      "grad_norm": 33.25,
      "grad_norm_var": 4.6869140625,
      "learning_rate": 0.0001,
      "loss": 8.2277,
      "loss/crossentropy": 2.155760329961777,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.246426010876894,
      "step": 12030
    },
    {
      "epoch": 0.4013333333333333,
      "grad_norm": 26.25,
      "grad_norm_var": 7.045768229166667,
      "learning_rate": 0.0001,
      "loss": 8.1739,
      "loss/crossentropy": 2.1292715579271317,
      "loss/hidden": 3.857421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23238162267953158,
      "step": 12040
    },
    {
      "epoch": 0.40166666666666667,
      "grad_norm": 32.0,
      "grad_norm_var": 8.898958333333333,
      "learning_rate": 0.0001,
      "loss": 8.1614,
      "loss/crossentropy": 2.148128533363342,
      "loss/hidden": 3.73203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23012944478541614,
      "step": 12050
    },
    {
      "epoch": 0.402,
      "grad_norm": 30.5,
      "grad_norm_var": 3.3577473958333335,
      "learning_rate": 0.0001,
      "loss": 8.2708,
      "loss/crossentropy": 1.872607284784317,
      "loss/hidden": 3.90234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2496652290225029,
      "step": 12060
    },
    {
      "epoch": 0.4023333333333333,
      "grad_norm": 30.125,
      "grad_norm_var": 2.1304840760927977e+18,
      "learning_rate": 0.0001,
      "loss": 8.3292,
      "loss/crossentropy": 2.3182139307260514,
      "loss/hidden": 3.66015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.238917101547122,
      "step": 12070
    },
    {
      "epoch": 0.4026666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 2.1304840765610918e+18,
      "learning_rate": 0.0001,
      "loss": 8.158,
      "loss/crossentropy": 1.9857861787080764,
      "loss/hidden": 3.871484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23468630164861679,
      "step": 12080
    },
    {
      "epoch": 0.403,
      "grad_norm": 32.25,
      "grad_norm_var": 14.543489583333333,
      "learning_rate": 0.0001,
      "loss": 8.1162,
      "loss/crossentropy": 2.062743777036667,
      "loss/hidden": 3.77421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23012079745531083,
      "step": 12090
    },
    {
      "epoch": 0.4033333333333333,
      "grad_norm": 31.0,
      "grad_norm_var": 14.9791015625,
      "learning_rate": 0.0001,
      "loss": 8.1531,
      "loss/crossentropy": 2.027921313047409,
      "loss/hidden": 3.718359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22394589530304074,
      "step": 12100
    },
    {
      "epoch": 0.4036666666666667,
      "grad_norm": 40.0,
      "grad_norm_var": 14.040559895833333,
      "learning_rate": 0.0001,
      "loss": 8.3209,
      "loss/crossentropy": 2.006143531948328,
      "loss/hidden": 3.65703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21074291467666625,
      "step": 12110
    },
    {
      "epoch": 0.404,
      "grad_norm": 28.25,
      "grad_norm_var": 16.646875,
      "learning_rate": 0.0001,
      "loss": 8.2199,
      "loss/crossentropy": 2.064042943716049,
      "loss/hidden": 3.8078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22763095535337924,
      "step": 12120
    },
    {
      "epoch": 0.4043333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 1.8330729166666666,
      "learning_rate": 0.0001,
      "loss": 8.1802,
      "loss/crossentropy": 2.1694528847932815,
      "loss/hidden": 3.924609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23536618407815696,
      "step": 12130
    },
    {
      "epoch": 0.4046666666666667,
      "grad_norm": 31.625,
      "grad_norm_var": 2.0556640625,
      "learning_rate": 0.0001,
      "loss": 8.1972,
      "loss/crossentropy": 2.119773244857788,
      "loss/hidden": 3.8078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24443610161542892,
      "step": 12140
    },
    {
      "epoch": 0.405,
      "grad_norm": 29.625,
      "grad_norm_var": 2.2260416666666667,
      "learning_rate": 0.0001,
      "loss": 8.2187,
      "loss/crossentropy": 2.132966651767492,
      "loss/hidden": 3.776171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23649816121906042,
      "step": 12150
    },
    {
      "epoch": 0.4053333333333333,
      "grad_norm": 25.625,
      "grad_norm_var": 21.917122395833335,
      "learning_rate": 0.0001,
      "loss": 8.2396,
      "loss/crossentropy": 2.133436472713947,
      "loss/hidden": 3.783203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2467921631410718,
      "step": 12160
    },
    {
      "epoch": 0.4056666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 87.078125,
      "learning_rate": 0.0001,
      "loss": 8.2219,
      "loss/crossentropy": 2.2029434219002724,
      "loss/hidden": 3.776171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2552025170996785,
      "step": 12170
    },
    {
      "epoch": 0.406,
      "grad_norm": 33.25,
      "grad_norm_var": 96.19270833333333,
      "learning_rate": 0.0001,
      "loss": 8.2495,
      "loss/crossentropy": 2.253942059725523,
      "loss/hidden": 3.66796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22677662651985883,
      "step": 12180
    },
    {
      "epoch": 0.4063333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 4.829166666666667,
      "learning_rate": 0.0001,
      "loss": 8.2984,
      "loss/crossentropy": 1.909020482003689,
      "loss/hidden": 4.008984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22903512194752693,
      "step": 12190
    },
    {
      "epoch": 0.4066666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 43.521809895833336,
      "learning_rate": 0.0001,
      "loss": 8.0987,
      "loss/crossentropy": 2.0227720350027085,
      "loss/hidden": 3.803125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2277982523664832,
      "step": 12200
    },
    {
      "epoch": 0.407,
      "grad_norm": 54.0,
      "grad_norm_var": 40.82962239583333,
      "learning_rate": 0.0001,
      "loss": 8.1799,
      "loss/crossentropy": 2.0709748052060606,
      "loss/hidden": 3.848828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22707768445834517,
      "step": 12210
    },
    {
      "epoch": 0.4073333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 35.93723958333333,
      "learning_rate": 0.0001,
      "loss": 8.2627,
      "loss/crossentropy": 2.0857065066695215,
      "loss/hidden": 3.755859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23003701977431773,
      "step": 12220
    },
    {
      "epoch": 0.4076666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 1.0643229166666666,
      "learning_rate": 0.0001,
      "loss": 8.2114,
      "loss/crossentropy": 2.136391428112984,
      "loss/hidden": 3.7546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23175083976238967,
      "step": 12230
    },
    {
      "epoch": 0.408,
      "grad_norm": 31.375,
      "grad_norm_var": 4.687239583333334,
      "learning_rate": 0.0001,
      "loss": 8.193,
      "loss/crossentropy": 2.0665802858769893,
      "loss/hidden": 3.741015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23225973546504974,
      "step": 12240
    },
    {
      "epoch": 0.4083333333333333,
      "grad_norm": 32.0,
      "grad_norm_var": 11.190559895833333,
      "learning_rate": 0.0001,
      "loss": 8.2347,
      "loss/crossentropy": 2.0192012012004854,
      "loss/hidden": 3.7859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2294670270755887,
      "step": 12250
    },
    {
      "epoch": 0.4086666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 5.26875,
      "learning_rate": 0.0001,
      "loss": 8.3742,
      "loss/crossentropy": 2.1292088687419892,
      "loss/hidden": 3.85234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24639325439929963,
      "step": 12260
    },
    {
      "epoch": 0.409,
      "grad_norm": 29.75,
      "grad_norm_var": 6.730989583333334,
      "learning_rate": 0.0001,
      "loss": 8.1186,
      "loss/crossentropy": 2.134373862296343,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2399260677397251,
      "step": 12270
    },
    {
      "epoch": 0.4093333333333333,
      "grad_norm": 31.25,
      "grad_norm_var": 2.959830729166667,
      "learning_rate": 0.0001,
      "loss": 8.2645,
      "loss/crossentropy": 2.1076954215765,
      "loss/hidden": 3.67734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22277417313307524,
      "step": 12280
    },
    {
      "epoch": 0.4096666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 1.9390810930048315e+18,
      "learning_rate": 0.0001,
      "loss": 8.2145,
      "loss/crossentropy": 1.9754585176706314,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22273671329021455,
      "step": 12290
    },
    {
      "epoch": 0.41,
      "grad_norm": 31.75,
      "grad_norm_var": 1.9390810922215452e+18,
      "learning_rate": 0.0001,
      "loss": 8.255,
      "loss/crossentropy": 2.21117245554924,
      "loss/hidden": 3.76953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22954177036881446,
      "step": 12300
    },
    {
      "epoch": 0.4103333333333333,
      "grad_norm": 28.75,
      "grad_norm_var": 11.9619140625,
      "learning_rate": 0.0001,
      "loss": 8.3073,
      "loss/crossentropy": 2.0862128123641015,
      "loss/hidden": 3.717578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23974426425993442,
      "step": 12310
    },
    {
      "epoch": 0.4106666666666667,
      "grad_norm": 30.875,
      "grad_norm_var": 5.587239583333333,
      "learning_rate": 0.0001,
      "loss": 8.1389,
      "loss/crossentropy": 1.9903224393725396,
      "loss/hidden": 3.753515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22904759608209133,
      "step": 12320
    },
    {
      "epoch": 0.411,
      "grad_norm": 31.75,
      "grad_norm_var": 5.352083333333334,
      "learning_rate": 0.0001,
      "loss": 8.1885,
      "loss/crossentropy": 2.1092441350221636,
      "loss/hidden": 3.68671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2219138015061617,
      "step": 12330
    },
    {
      "epoch": 0.41133333333333333,
      "grad_norm": 28.0,
      "grad_norm_var": 4.24140625,
      "learning_rate": 0.0001,
      "loss": 8.2663,
      "loss/crossentropy": 2.008776394277811,
      "loss/hidden": 3.861328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23205508813261985,
      "step": 12340
    },
    {
      "epoch": 0.4116666666666667,
      "grad_norm": 29.75,
      "grad_norm_var": 2.79765625,
      "learning_rate": 0.0001,
      "loss": 8.2388,
      "loss/crossentropy": 2.10398950278759,
      "loss/hidden": 3.7484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2270292304456234,
      "step": 12350
    },
    {
      "epoch": 0.412,
      "grad_norm": 30.5,
      "grad_norm_var": 13.00625,
      "learning_rate": 0.0001,
      "loss": 8.1708,
      "loss/crossentropy": 1.9869476959109307,
      "loss/hidden": 3.760546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2278031835332513,
      "step": 12360
    },
    {
      "epoch": 0.41233333333333333,
      "grad_norm": 28.875,
      "grad_norm_var": 15.693684895833334,
      "learning_rate": 0.0001,
      "loss": 8.2568,
      "loss/crossentropy": 2.1288417890667914,
      "loss/hidden": 3.849609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2364706289023161,
      "step": 12370
    },
    {
      "epoch": 0.4126666666666667,
      "grad_norm": 28.375,
      "grad_norm_var": 13.906184895833333,
      "learning_rate": 0.0001,
      "loss": 8.203,
      "loss/crossentropy": 2.0824377298355103,
      "loss/hidden": 3.742578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.219917696993798,
      "step": 12380
    },
    {
      "epoch": 0.413,
      "grad_norm": 32.0,
      "grad_norm_var": 13.921875,
      "learning_rate": 0.0001,
      "loss": 8.2617,
      "loss/crossentropy": 2.155314549803734,
      "loss/hidden": 3.882421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24771923571825027,
      "step": 12390
    },
    {
      "epoch": 0.41333333333333333,
      "grad_norm": 36.0,
      "grad_norm_var": 12.428125,
      "learning_rate": 0.0001,
      "loss": 8.092,
      "loss/crossentropy": 1.9445300944149495,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22118018846958876,
      "step": 12400
    },
    {
      "epoch": 0.4136666666666667,
      "grad_norm": 31.5,
      "grad_norm_var": 5.564518229166667,
      "learning_rate": 0.0001,
      "loss": 8.2348,
      "loss/crossentropy": 2.07020313590765,
      "loss/hidden": 3.790625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22232855744659902,
      "step": 12410
    },
    {
      "epoch": 0.414,
      "grad_norm": 35.25,
      "grad_norm_var": 8.139322916666666,
      "learning_rate": 0.0001,
      "loss": 8.3157,
      "loss/crossentropy": 2.108063217997551,
      "loss/hidden": 3.845703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2458704814314842,
      "step": 12420
    },
    {
      "epoch": 0.41433333333333333,
      "grad_norm": 29.5,
      "grad_norm_var": 5.182291666666667,
      "learning_rate": 0.0001,
      "loss": 8.0417,
      "loss/crossentropy": 2.181876909732819,
      "loss/hidden": 3.773828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22876899931579828,
      "step": 12430
    },
    {
      "epoch": 0.4146666666666667,
      "grad_norm": 28.375,
      "grad_norm_var": 1.6083333333333334,
      "learning_rate": 0.0001,
      "loss": 8.1716,
      "loss/crossentropy": 2.095130206644535,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2197817573323846,
      "step": 12440
    },
    {
      "epoch": 0.415,
      "grad_norm": 29.625,
      "grad_norm_var": 5.591666666666667,
      "learning_rate": 0.0001,
      "loss": 8.0813,
      "loss/crossentropy": 2.0588746845722197,
      "loss/hidden": 3.812109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.232548057846725,
      "step": 12450
    },
    {
      "epoch": 0.41533333333333333,
      "grad_norm": 32.0,
      "grad_norm_var": 4.77265625,
      "learning_rate": 0.0001,
      "loss": 8.3514,
      "loss/crossentropy": 2.0703504741191865,
      "loss/hidden": 3.870703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25821793731302023,
      "step": 12460
    },
    {
      "epoch": 0.4156666666666667,
      "grad_norm": 27.75,
      "grad_norm_var": 42.38854166666667,
      "learning_rate": 0.0001,
      "loss": 8.2507,
      "loss/crossentropy": 2.1307108625769615,
      "loss/hidden": 3.871484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24973033610731363,
      "step": 12470
    },
    {
      "epoch": 0.416,
      "grad_norm": 30.875,
      "grad_norm_var": 34.26640625,
      "learning_rate": 0.0001,
      "loss": 8.1867,
      "loss/crossentropy": 2.117819709330797,
      "loss/hidden": 3.648828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22720290068536997,
      "step": 12480
    },
    {
      "epoch": 0.41633333333333333,
      "grad_norm": 30.25,
      "grad_norm_var": 12.4416015625,
      "learning_rate": 0.0001,
      "loss": 8.2697,
      "loss/crossentropy": 2.109950542449951,
      "loss/hidden": 3.687890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21628530863672496,
      "step": 12490
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 31.0,
      "grad_norm_var": 10.474739583333333,
      "learning_rate": 0.0001,
      "loss": 8.105,
      "loss/crossentropy": 1.9980547428131104,
      "loss/hidden": 3.808984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21721296831965448,
      "step": 12500
    },
    {
      "epoch": 0.417,
      "grad_norm": 29.625,
      "grad_norm_var": 3.655143229166667,
      "learning_rate": 0.0001,
      "loss": 8.0715,
      "loss/crossentropy": 2.131350800395012,
      "loss/hidden": 3.78984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23274635933339596,
      "step": 12510
    },
    {
      "epoch": 0.41733333333333333,
      "grad_norm": 35.5,
      "grad_norm_var": 4.509830729166667,
      "learning_rate": 0.0001,
      "loss": 8.1491,
      "loss/crossentropy": 2.1224256813526154,
      "loss/hidden": 3.827734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25079987831413747,
      "step": 12520
    },
    {
      "epoch": 0.4176666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 4.074739583333334,
      "learning_rate": 0.0001,
      "loss": 8.2616,
      "loss/crossentropy": 2.0152181297540666,
      "loss/hidden": 3.7921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23770801294595004,
      "step": 12530
    },
    {
      "epoch": 0.418,
      "grad_norm": 29.625,
      "grad_norm_var": 1.6389973958333333,
      "learning_rate": 0.0001,
      "loss": 8.1426,
      "loss/crossentropy": 1.915038924664259,
      "loss/hidden": 3.79140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21815692326053976,
      "step": 12540
    },
    {
      "epoch": 0.41833333333333333,
      "grad_norm": 32.5,
      "grad_norm_var": 2.895247395833333,
      "learning_rate": 0.0001,
      "loss": 8.1342,
      "loss/crossentropy": 2.038285069167614,
      "loss/hidden": 3.685546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2054979182779789,
      "step": 12550
    },
    {
      "epoch": 0.4186666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 4.293489583333334,
      "learning_rate": 0.0001,
      "loss": 8.2244,
      "loss/crossentropy": 2.0995118111371993,
      "loss/hidden": 3.823046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22938680201768874,
      "step": 12560
    },
    {
      "epoch": 0.419,
      "grad_norm": 31.75,
      "grad_norm_var": 3.577018229166667,
      "learning_rate": 0.0001,
      "loss": 8.2214,
      "loss/crossentropy": 2.1287095353007315,
      "loss/hidden": 3.70703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23023095317184925,
      "step": 12570
    },
    {
      "epoch": 0.41933333333333334,
      "grad_norm": 27.25,
      "grad_norm_var": 6.601497395833333,
      "learning_rate": 0.0001,
      "loss": 8.0257,
      "loss/crossentropy": 2.163818618655205,
      "loss/hidden": 3.804296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2438998742029071,
      "step": 12580
    },
    {
      "epoch": 0.4196666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 12.27265625,
      "learning_rate": 0.0001,
      "loss": 8.1848,
      "loss/crossentropy": 2.00474643856287,
      "loss/hidden": 3.778515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22157613541930915,
      "step": 12590
    },
    {
      "epoch": 0.42,
      "grad_norm": 32.5,
      "grad_norm_var": 3.70390625,
      "learning_rate": 0.0001,
      "loss": 8.1346,
      "loss/crossentropy": 2.164738741517067,
      "loss/hidden": 3.70546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23143419064581394,
      "step": 12600
    },
    {
      "epoch": 0.42033333333333334,
      "grad_norm": 31.75,
      "grad_norm_var": 1.8309895833333334,
      "learning_rate": 0.0001,
      "loss": 8.016,
      "loss/crossentropy": 2.0151191845536234,
      "loss/hidden": 3.86796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22970234788954258,
      "step": 12610
    },
    {
      "epoch": 0.4206666666666667,
      "grad_norm": 30.5,
      "grad_norm_var": 1.6122395833333334,
      "learning_rate": 0.0001,
      "loss": 8.2133,
      "loss/crossentropy": 2.1432757824659348,
      "loss/hidden": 3.746484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22702465616166592,
      "step": 12620
    },
    {
      "epoch": 0.421,
      "grad_norm": 32.25,
      "grad_norm_var": 4.889322916666667,
      "learning_rate": 0.0001,
      "loss": 8.0972,
      "loss/crossentropy": 2.182205152511597,
      "loss/hidden": 3.598046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20892607383430004,
      "step": 12630
    },
    {
      "epoch": 0.42133333333333334,
      "grad_norm": 34.5,
      "grad_norm_var": 8.5041015625,
      "learning_rate": 0.0001,
      "loss": 8.0624,
      "loss/crossentropy": 2.151243197917938,
      "loss/hidden": 3.69765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22152379900217056,
      "step": 12640
    },
    {
      "epoch": 0.4216666666666667,
      "grad_norm": 31.625,
      "grad_norm_var": 2.472916666666667,
      "learning_rate": 0.0001,
      "loss": 8.1911,
      "loss/crossentropy": 2.1016953229904174,
      "loss/hidden": 3.759765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23559323363006116,
      "step": 12650
    },
    {
      "epoch": 0.422,
      "grad_norm": 30.75,
      "grad_norm_var": 7.993684895833334,
      "learning_rate": 0.0001,
      "loss": 8.165,
      "loss/crossentropy": 1.9417916133999824,
      "loss/hidden": 3.772265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2225018298253417,
      "step": 12660
    },
    {
      "epoch": 0.42233333333333334,
      "grad_norm": 30.0,
      "grad_norm_var": 16.370572916666667,
      "learning_rate": 0.0001,
      "loss": 8.0033,
      "loss/crossentropy": 1.9000740669667722,
      "loss/hidden": 3.640234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20819500964134932,
      "step": 12670
    },
    {
      "epoch": 0.4226666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 3.5973307291666665,
      "learning_rate": 0.0001,
      "loss": 8.006,
      "loss/crossentropy": 2.1980207815766333,
      "loss/hidden": 3.790625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22516860738396643,
      "step": 12680
    },
    {
      "epoch": 0.423,
      "grad_norm": 30.625,
      "grad_norm_var": 2.098893229166667,
      "learning_rate": 0.0001,
      "loss": 8.1445,
      "loss/crossentropy": 2.3503684222698213,
      "loss/hidden": 3.687109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.236199764162302,
      "step": 12690
    },
    {
      "epoch": 0.42333333333333334,
      "grad_norm": 32.75,
      "grad_norm_var": 1.47890625,
      "learning_rate": 0.0001,
      "loss": 7.9247,
      "loss/crossentropy": 2.023277834057808,
      "loss/hidden": 3.72890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2181034479290247,
      "step": 12700
    },
    {
      "epoch": 0.4236666666666667,
      "grad_norm": 31.0,
      "grad_norm_var": 3.9884765625,
      "learning_rate": 0.0001,
      "loss": 8.1299,
      "loss/crossentropy": 2.138180735707283,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2189898299984634,
      "step": 12710
    },
    {
      "epoch": 0.424,
      "grad_norm": 30.75,
      "grad_norm_var": 1.6708333333333334,
      "learning_rate": 0.0001,
      "loss": 7.9982,
      "loss/crossentropy": 2.0362440764904024,
      "loss/hidden": 3.639453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20388144720345736,
      "step": 12720
    },
    {
      "epoch": 0.42433333333333334,
      "grad_norm": 30.5,
      "grad_norm_var": 11.117708333333333,
      "learning_rate": 0.0001,
      "loss": 8.1727,
      "loss/crossentropy": 2.1874516278505327,
      "loss/hidden": 3.585546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21905291676521302,
      "step": 12730
    },
    {
      "epoch": 0.4246666666666667,
      "grad_norm": 41.0,
      "grad_norm_var": 20.251822916666665,
      "learning_rate": 0.0001,
      "loss": 8.0777,
      "loss/crossentropy": 2.2824623227119445,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22527546025812625,
      "step": 12740
    },
    {
      "epoch": 0.425,
      "grad_norm": 29.5,
      "grad_norm_var": 25.060416666666665,
      "learning_rate": 0.0001,
      "loss": 8.1515,
      "loss/crossentropy": 2.0866646379232408,
      "loss/hidden": 3.727734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2159626353532076,
      "step": 12750
    },
    {
      "epoch": 0.42533333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 25.107747395833332,
      "learning_rate": 0.0001,
      "loss": 7.8544,
      "loss/crossentropy": 2.126218634843826,
      "loss/hidden": 3.794140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23769555874168874,
      "step": 12760
    },
    {
      "epoch": 0.4256666666666667,
      "grad_norm": 36.5,
      "grad_norm_var": 39.00625,
      "learning_rate": 0.0001,
      "loss": 8.0843,
      "loss/crossentropy": 2.1776451751589776,
      "loss/hidden": 3.627734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22230409383773803,
      "step": 12770
    },
    {
      "epoch": 0.426,
      "grad_norm": 31.375,
      "grad_norm_var": 13.474934895833334,
      "learning_rate": 0.0001,
      "loss": 7.99,
      "loss/crossentropy": 2.101397790014744,
      "loss/hidden": 3.725390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.231523541174829,
      "step": 12780
    },
    {
      "epoch": 0.42633333333333334,
      "grad_norm": 35.25,
      "grad_norm_var": 13.215625,
      "learning_rate": 0.0001,
      "loss": 7.9369,
      "loss/crossentropy": 2.1546214550733565,
      "loss/hidden": 3.74296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22521314695477485,
      "step": 12790
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 17.4791015625,
      "learning_rate": 0.0001,
      "loss": 8.0401,
      "loss/crossentropy": 2.232549238950014,
      "loss/hidden": 3.86640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2322084965184331,
      "step": 12800
    },
    {
      "epoch": 0.427,
      "grad_norm": 30.25,
      "grad_norm_var": 8.587239583333334,
      "learning_rate": 0.0001,
      "loss": 8.1028,
      "loss/crossentropy": 2.1313828572630884,
      "loss/hidden": 3.651171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21781184244900942,
      "step": 12810
    },
    {
      "epoch": 0.42733333333333334,
      "grad_norm": 27.625,
      "grad_norm_var": 10.428125,
      "learning_rate": 0.0001,
      "loss": 8.0773,
      "loss/crossentropy": 2.243235859274864,
      "loss/hidden": 3.6453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21965202130377293,
      "step": 12820
    },
    {
      "epoch": 0.42766666666666664,
      "grad_norm": 37.0,
      "grad_norm_var": 14.7791015625,
      "learning_rate": 0.0001,
      "loss": 8.1248,
      "loss/crossentropy": 2.162339176237583,
      "loss/hidden": 3.74296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23140791803598404,
      "step": 12830
    },
    {
      "epoch": 0.428,
      "grad_norm": 29.625,
      "grad_norm_var": 12.1447265625,
      "learning_rate": 0.0001,
      "loss": 8.1194,
      "loss/crossentropy": 2.1178503066301344,
      "loss/hidden": 3.759375,
      "loss/jsd": 0.0,
      "loss/logits": 0.243923881649971,
      "step": 12840
    },
    {
      "epoch": 0.42833333333333334,
      "grad_norm": 49.0,
      "grad_norm_var": 25.64140625,
      "learning_rate": 0.0001,
      "loss": 8.0362,
      "loss/crossentropy": 2.1236428640782834,
      "loss/hidden": 3.683984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21966639999300241,
      "step": 12850
    },
    {
      "epoch": 0.42866666666666664,
      "grad_norm": 30.375,
      "grad_norm_var": 23.0181640625,
      "learning_rate": 0.0001,
      "loss": 8.0254,
      "loss/crossentropy": 2.1352688685059547,
      "loss/hidden": 3.699609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2124914363026619,
      "step": 12860
    },
    {
      "epoch": 0.429,
      "grad_norm": 29.875,
      "grad_norm_var": 4.287239583333333,
      "learning_rate": 0.0001,
      "loss": 8.0469,
      "loss/crossentropy": 2.0519951224327087,
      "loss/hidden": 3.68828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22668614089488984,
      "step": 12870
    },
    {
      "epoch": 0.42933333333333334,
      "grad_norm": 29.875,
      "grad_norm_var": 2.6497395833333335,
      "learning_rate": 0.0001,
      "loss": 8.0736,
      "loss/crossentropy": 2.089827132225037,
      "loss/hidden": 3.68046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2167070461437106,
      "step": 12880
    },
    {
      "epoch": 0.42966666666666664,
      "grad_norm": 27.125,
      "grad_norm_var": 6.01875,
      "learning_rate": 0.0001,
      "loss": 7.9577,
      "loss/crossentropy": 2.1272108972072603,
      "loss/hidden": 3.645703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22290566843003035,
      "step": 12890
    },
    {
      "epoch": 0.43,
      "grad_norm": 26.75,
      "grad_norm_var": 7.3875,
      "learning_rate": 0.0001,
      "loss": 7.9521,
      "loss/crossentropy": 2.169513902813196,
      "loss/hidden": 3.675,
      "loss/jsd": 0.0,
      "loss/logits": 0.21037282003089786,
      "step": 12900
    },
    {
      "epoch": 0.43033333333333335,
      "grad_norm": 32.25,
      "grad_norm_var": 3.3,
      "learning_rate": 0.0001,
      "loss": 7.9838,
      "loss/crossentropy": 2.093190697580576,
      "loss/hidden": 3.71484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21419555507600307,
      "step": 12910
    },
    {
      "epoch": 0.43066666666666664,
      "grad_norm": 33.5,
      "grad_norm_var": 4.025,
      "learning_rate": 0.0001,
      "loss": 8.1292,
      "loss/crossentropy": 2.128591850399971,
      "loss/hidden": 3.81328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2363378331065178,
      "step": 12920
    },
    {
      "epoch": 0.431,
      "grad_norm": 33.0,
      "grad_norm_var": 3.588997395833333,
      "learning_rate": 0.0001,
      "loss": 8.0753,
      "loss/crossentropy": 2.07633658349514,
      "loss/hidden": 3.728125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23476697821170092,
      "step": 12930
    },
    {
      "epoch": 0.43133333333333335,
      "grad_norm": 34.0,
      "grad_norm_var": 4.872330729166666,
      "learning_rate": 0.0001,
      "loss": 8.0557,
      "loss/crossentropy": 2.173259836435318,
      "loss/hidden": 3.8171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23491751477122308,
      "step": 12940
    },
    {
      "epoch": 0.43166666666666664,
      "grad_norm": 33.5,
      "grad_norm_var": 4.478059895833334,
      "learning_rate": 0.0001,
      "loss": 8.0571,
      "loss/crossentropy": 2.076581171154976,
      "loss/hidden": 3.694140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21625892743468283,
      "step": 12950
    },
    {
      "epoch": 0.432,
      "grad_norm": 41.5,
      "grad_norm_var": 2.540311638953689e+18,
      "learning_rate": 0.0001,
      "loss": 8.2307,
      "loss/crossentropy": 2.2042708441615106,
      "loss/hidden": 3.641015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23953549321740866,
      "step": 12960
    },
    {
      "epoch": 0.43233333333333335,
      "grad_norm": 33.5,
      "grad_norm_var": 2.5403116395912233e+18,
      "learning_rate": 0.0001,
      "loss": 8.1052,
      "loss/crossentropy": 2.1010278701782226,
      "loss/hidden": 3.75625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23639172241091727,
      "step": 12970
    },
    {
      "epoch": 0.43266666666666664,
      "grad_norm": 33.25,
      "grad_norm_var": 3.4994140625,
      "learning_rate": 0.0001,
      "loss": 8.0009,
      "loss/crossentropy": 2.057431307435036,
      "loss/hidden": 3.7015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23213282637298108,
      "step": 12980
    },
    {
      "epoch": 0.433,
      "grad_norm": 29.0,
      "grad_norm_var": 94.1931640625,
      "learning_rate": 0.0001,
      "loss": 8.0487,
      "loss/crossentropy": 2.0685934379696844,
      "loss/hidden": 3.766796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23443159088492393,
      "step": 12990
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 31.0,
      "grad_norm_var": 92.73326822916667,
      "learning_rate": 0.0001,
      "loss": 8.1327,
      "loss/crossentropy": 2.1575643092393877,
      "loss/hidden": 3.73984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2321011306717992,
      "step": 13000
    },
    {
      "epoch": 0.43366666666666664,
      "grad_norm": 30.0,
      "grad_norm_var": 6.570572916666666,
      "learning_rate": 0.0001,
      "loss": 8.0488,
      "loss/crossentropy": 1.9470253214240074,
      "loss/hidden": 3.684765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20168767049908637,
      "step": 13010
    },
    {
      "epoch": 0.434,
      "grad_norm": 31.875,
      "grad_norm_var": 6.384830729166667,
      "learning_rate": 0.0001,
      "loss": 7.9454,
      "loss/crossentropy": 1.8895531304180622,
      "loss/hidden": 3.55,
      "loss/jsd": 0.0,
      "loss/logits": 0.19299599220976232,
      "step": 13020
    },
    {
      "epoch": 0.43433333333333335,
      "grad_norm": 30.875,
      "grad_norm_var": 2.934375,
      "learning_rate": 0.0001,
      "loss": 8.0835,
      "loss/crossentropy": 2.1535514682531356,
      "loss/hidden": 3.66796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22370851337909697,
      "step": 13030
    },
    {
      "epoch": 0.43466666666666665,
      "grad_norm": 30.625,
      "grad_norm_var": 5.705989583333333,
      "learning_rate": 0.0001,
      "loss": 7.979,
      "loss/crossentropy": 2.1214609906077384,
      "loss/hidden": 3.688671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21629442609846591,
      "step": 13040
    },
    {
      "epoch": 0.435,
      "grad_norm": 31.75,
      "grad_norm_var": 6.716666666666667,
      "learning_rate": 0.0001,
      "loss": 7.9544,
      "loss/crossentropy": 1.9861764639616013,
      "loss/hidden": 3.801171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23933750428259373,
      "step": 13050
    },
    {
      "epoch": 0.43533333333333335,
      "grad_norm": 30.625,
      "grad_norm_var": 4.792643229166667,
      "learning_rate": 0.0001,
      "loss": 8.1328,
      "loss/crossentropy": 2.0345228269696234,
      "loss/hidden": 3.725390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2294387150555849,
      "step": 13060
    },
    {
      "epoch": 0.43566666666666665,
      "grad_norm": 31.25,
      "grad_norm_var": 9.701822916666666,
      "learning_rate": 0.0001,
      "loss": 7.9392,
      "loss/crossentropy": 2.0680396020412446,
      "loss/hidden": 3.887109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23335713148117065,
      "step": 13070
    },
    {
      "epoch": 0.436,
      "grad_norm": 34.75,
      "grad_norm_var": 5.339322916666666,
      "learning_rate": 0.0001,
      "loss": 8.1304,
      "loss/crossentropy": 2.0736231788992883,
      "loss/hidden": 3.753125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23877801094204187,
      "step": 13080
    },
    {
      "epoch": 0.43633333333333335,
      "grad_norm": 30.75,
      "grad_norm_var": 4.684025051839935e+18,
      "learning_rate": 0.0001,
      "loss": 8.1914,
      "loss/crossentropy": 2.2048259407281874,
      "loss/hidden": 3.637109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23145930115133523,
      "step": 13090
    },
    {
      "epoch": 0.43666666666666665,
      "grad_norm": 31.625,
      "grad_norm_var": 21.812955729166667,
      "learning_rate": 0.0001,
      "loss": 8.0019,
      "loss/crossentropy": 2.1128788188099863,
      "loss/hidden": 3.742578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2392245376482606,
      "step": 13100
    },
    {
      "epoch": 0.437,
      "grad_norm": 32.25,
      "grad_norm_var": 9.125,
      "learning_rate": 0.0001,
      "loss": 8.0213,
      "loss/crossentropy": 2.0316510528326033,
      "loss/hidden": 3.684375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21703706961125135,
      "step": 13110
    },
    {
      "epoch": 0.43733333333333335,
      "grad_norm": 30.625,
      "grad_norm_var": 13.457747395833334,
      "learning_rate": 0.0001,
      "loss": 8.1833,
      "loss/crossentropy": 1.937141789495945,
      "loss/hidden": 3.655078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2118115139193833,
      "step": 13120
    },
    {
      "epoch": 0.43766666666666665,
      "grad_norm": 32.75,
      "grad_norm_var": 12.8369140625,
      "learning_rate": 0.0001,
      "loss": 8.0128,
      "loss/crossentropy": 2.057337316870689,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2210848169401288,
      "step": 13130
    },
    {
      "epoch": 0.438,
      "grad_norm": 34.25,
      "grad_norm_var": 8.7587890625,
      "learning_rate": 0.0001,
      "loss": 8.0243,
      "loss/crossentropy": 2.086243689060211,
      "loss/hidden": 3.696484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2156898221001029,
      "step": 13140
    },
    {
      "epoch": 0.43833333333333335,
      "grad_norm": 31.875,
      "grad_norm_var": 7.94765625,
      "learning_rate": 0.0001,
      "loss": 8.1641,
      "loss/crossentropy": 2.2972807347774507,
      "loss/hidden": 3.756640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24422766156494619,
      "step": 13150
    },
    {
      "epoch": 0.43866666666666665,
      "grad_norm": 30.5,
      "grad_norm_var": 5.2791015625,
      "learning_rate": 0.0001,
      "loss": 8.0809,
      "loss/crossentropy": 2.2393217980861664,
      "loss/hidden": 3.623828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22840084582567216,
      "step": 13160
    },
    {
      "epoch": 0.439,
      "grad_norm": 32.0,
      "grad_norm_var": 4.076497395833333,
      "learning_rate": 0.0001,
      "loss": 8.0278,
      "loss/crossentropy": 2.149459010362625,
      "loss/hidden": 3.697265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2299880154430866,
      "step": 13170
    },
    {
      "epoch": 0.43933333333333335,
      "grad_norm": 29.0,
      "grad_norm_var": 2.039322916666667,
      "learning_rate": 0.0001,
      "loss": 8.0435,
      "loss/crossentropy": 2.022595777362585,
      "loss/hidden": 3.65390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21843499960377813,
      "step": 13180
    },
    {
      "epoch": 0.43966666666666665,
      "grad_norm": 32.5,
      "grad_norm_var": 8.3072265625,
      "learning_rate": 0.0001,
      "loss": 8.0339,
      "loss/crossentropy": 1.966893842816353,
      "loss/hidden": 3.7140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23092244230210782,
      "step": 13190
    },
    {
      "epoch": 0.44,
      "grad_norm": 30.125,
      "grad_norm_var": 1.8580729166666667,
      "learning_rate": 0.0001,
      "loss": 8.1766,
      "loss/crossentropy": 2.2937954008579253,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24365076944231986,
      "step": 13200
    },
    {
      "epoch": 0.44033333333333335,
      "grad_norm": 42.0,
      "grad_norm_var": 8.8447265625,
      "learning_rate": 0.0001,
      "loss": 8.0685,
      "loss/crossentropy": 2.203465947508812,
      "loss/hidden": 3.625390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22517771869897843,
      "step": 13210
    },
    {
      "epoch": 0.44066666666666665,
      "grad_norm": 32.25,
      "grad_norm_var": 8.635872395833333,
      "learning_rate": 0.0001,
      "loss": 8.0298,
      "loss/crossentropy": 2.14248249232769,
      "loss/hidden": 3.504296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21284189969301223,
      "step": 13220
    },
    {
      "epoch": 0.441,
      "grad_norm": 27.75,
      "grad_norm_var": 4.1634765625,
      "learning_rate": 0.0001,
      "loss": 7.9522,
      "loss/crossentropy": 2.112074154615402,
      "loss/hidden": 3.856640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23715684618800878,
      "step": 13230
    },
    {
      "epoch": 0.44133333333333336,
      "grad_norm": 32.25,
      "grad_norm_var": 6.068489583333333,
      "learning_rate": 0.0001,
      "loss": 7.9992,
      "loss/crossentropy": 2.0217273235321045,
      "loss/hidden": 3.68984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22903131749480962,
      "step": 13240
    },
    {
      "epoch": 0.44166666666666665,
      "grad_norm": 30.5,
      "grad_norm_var": 11.684375,
      "learning_rate": 0.0001,
      "loss": 8.0119,
      "loss/crossentropy": 2.080713841319084,
      "loss/hidden": 3.68515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22152625005692245,
      "step": 13250
    },
    {
      "epoch": 0.442,
      "grad_norm": 37.0,
      "grad_norm_var": 1240.8749348958333,
      "learning_rate": 0.0001,
      "loss": 8.1225,
      "loss/crossentropy": 2.0688235819339753,
      "loss/hidden": 3.74296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22032655104994775,
      "step": 13260
    },
    {
      "epoch": 0.44233333333333336,
      "grad_norm": 32.75,
      "grad_norm_var": 1244.62890625,
      "learning_rate": 0.0001,
      "loss": 7.9617,
      "loss/crossentropy": 2.0978364631533624,
      "loss/hidden": 3.712109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2254788476973772,
      "step": 13270
    },
    {
      "epoch": 0.44266666666666665,
      "grad_norm": 34.0,
      "grad_norm_var": 5.268684895833333,
      "learning_rate": 0.0001,
      "loss": 8.0872,
      "loss/crossentropy": 2.0726170748472215,
      "loss/hidden": 3.562890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19704890344291925,
      "step": 13280
    },
    {
      "epoch": 0.443,
      "grad_norm": 29.75,
      "grad_norm_var": 6.375455729166666,
      "learning_rate": 0.0001,
      "loss": 7.9701,
      "loss/crossentropy": 2.2288454949855803,
      "loss/hidden": 3.67890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21981892809271814,
      "step": 13290
    },
    {
      "epoch": 0.44333333333333336,
      "grad_norm": 32.5,
      "grad_norm_var": 4.275,
      "learning_rate": 0.0001,
      "loss": 8.1481,
      "loss/crossentropy": 2.1981609016656876,
      "loss/hidden": 3.7671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2299773920327425,
      "step": 13300
    },
    {
      "epoch": 0.44366666666666665,
      "grad_norm": 31.125,
      "grad_norm_var": 5.218489583333334,
      "learning_rate": 0.0001,
      "loss": 8.1545,
      "loss/crossentropy": 2.1825950175523756,
      "loss/hidden": 3.631640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22280107364058493,
      "step": 13310
    },
    {
      "epoch": 0.444,
      "grad_norm": 31.375,
      "grad_norm_var": 5.693684895833333,
      "learning_rate": 0.0001,
      "loss": 8.0126,
      "loss/crossentropy": 2.1816250920295714,
      "loss/hidden": 3.725,
      "loss/jsd": 0.0,
      "loss/logits": 0.23028801158070564,
      "step": 13320
    },
    {
      "epoch": 0.44433333333333336,
      "grad_norm": 35.25,
      "grad_norm_var": 5.933072916666666,
      "learning_rate": 0.0001,
      "loss": 8.0725,
      "loss/crossentropy": 2.0108284398913385,
      "loss/hidden": 3.71484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2190965536981821,
      "step": 13330
    },
    {
      "epoch": 0.44466666666666665,
      "grad_norm": 30.5,
      "grad_norm_var": 9.8134765625,
      "learning_rate": 0.0001,
      "loss": 7.9707,
      "loss/crossentropy": 2.1558491311967374,
      "loss/hidden": 3.773828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20952776670455933,
      "step": 13340
    },
    {
      "epoch": 0.445,
      "grad_norm": 29.875,
      "grad_norm_var": 10.82890625,
      "learning_rate": 0.0001,
      "loss": 8.1556,
      "loss/crossentropy": 2.0820034801959992,
      "loss/hidden": 3.894921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25748000014573336,
      "step": 13350
    },
    {
      "epoch": 0.44533333333333336,
      "grad_norm": 32.0,
      "grad_norm_var": 20.269791666666666,
      "learning_rate": 0.0001,
      "loss": 8.1191,
      "loss/crossentropy": 2.0460492126643657,
      "loss/hidden": 3.7515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22600278463214635,
      "step": 13360
    },
    {
      "epoch": 0.44566666666666666,
      "grad_norm": 27.625,
      "grad_norm_var": 14.958072916666667,
      "learning_rate": 0.0001,
      "loss": 8.042,
      "loss/crossentropy": 2.1917740404605865,
      "loss/hidden": 3.61875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20980511526577175,
      "step": 13370
    },
    {
      "epoch": 0.446,
      "grad_norm": 33.25,
      "grad_norm_var": 16.076497395833332,
      "learning_rate": 0.0001,
      "loss": 8.0894,
      "loss/crossentropy": 2.2024613440036775,
      "loss/hidden": 3.649609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2355958294123411,
      "step": 13380
    },
    {
      "epoch": 0.44633333333333336,
      "grad_norm": 33.5,
      "grad_norm_var": 17.540625,
      "learning_rate": 0.0001,
      "loss": 7.9545,
      "loss/crossentropy": 1.9565787248313427,
      "loss/hidden": 3.79765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21949218455702066,
      "step": 13390
    },
    {
      "epoch": 0.44666666666666666,
      "grad_norm": 33.75,
      "grad_norm_var": 20.5400390625,
      "learning_rate": 0.0001,
      "loss": 7.9703,
      "loss/crossentropy": 2.0982728376984596,
      "loss/hidden": 3.64140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20750523190945386,
      "step": 13400
    },
    {
      "epoch": 0.447,
      "grad_norm": 30.0,
      "grad_norm_var": 5.753580729166667,
      "learning_rate": 0.0001,
      "loss": 7.9816,
      "loss/crossentropy": 2.1122142657637597,
      "loss/hidden": 3.613671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22008793614804745,
      "step": 13410
    },
    {
      "epoch": 0.44733333333333336,
      "grad_norm": 35.25,
      "grad_norm_var": 5.796875,
      "learning_rate": 0.0001,
      "loss": 8.0286,
      "loss/crossentropy": 2.07668551504612,
      "loss/hidden": 3.783203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21882363129407167,
      "step": 13420
    },
    {
      "epoch": 0.44766666666666666,
      "grad_norm": 28.125,
      "grad_norm_var": 7.4822265625,
      "learning_rate": 0.0001,
      "loss": 7.8724,
      "loss/crossentropy": 2.0558082655072214,
      "loss/hidden": 3.616796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20779120028018952,
      "step": 13430
    },
    {
      "epoch": 0.448,
      "grad_norm": 31.25,
      "grad_norm_var": 43.58743489583333,
      "learning_rate": 0.0001,
      "loss": 8.0085,
      "loss/crossentropy": 2.0572322949767115,
      "loss/hidden": 3.719140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22204263061285018,
      "step": 13440
    },
    {
      "epoch": 0.4483333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 23.96640625,
      "learning_rate": 0.0001,
      "loss": 7.9379,
      "loss/crossentropy": 2.07759770154953,
      "loss/hidden": 3.603515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21129580233246087,
      "step": 13450
    },
    {
      "epoch": 0.44866666666666666,
      "grad_norm": 33.25,
      "grad_norm_var": 18.164322916666666,
      "learning_rate": 0.0001,
      "loss": 8.0347,
      "loss/crossentropy": 2.015417565405369,
      "loss/hidden": 3.744140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22753252387046813,
      "step": 13460
    },
    {
      "epoch": 0.449,
      "grad_norm": 29.25,
      "grad_norm_var": 25.124739583333334,
      "learning_rate": 0.0001,
      "loss": 8.1289,
      "loss/crossentropy": 2.05652796626091,
      "loss/hidden": 3.781640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24078646618872881,
      "step": 13470
    },
    {
      "epoch": 0.4493333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 24.924934895833335,
      "learning_rate": 0.0001,
      "loss": 8.0484,
      "loss/crossentropy": 2.1728298760950566,
      "loss/hidden": 3.636328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2125161023810506,
      "step": 13480
    },
    {
      "epoch": 0.44966666666666666,
      "grad_norm": 30.875,
      "grad_norm_var": 17.8150390625,
      "learning_rate": 0.0001,
      "loss": 7.8773,
      "loss/crossentropy": 2.021086546033621,
      "loss/hidden": 3.686328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2219966731965542,
      "step": 13490
    },
    {
      "epoch": 0.45,
      "grad_norm": 43.25,
      "grad_norm_var": 20.687955729166667,
      "learning_rate": 0.0001,
      "loss": 8.0709,
      "loss/crossentropy": 1.9942471355199813,
      "loss/hidden": 3.686328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24962616860866546,
      "step": 13500
    },
    {
      "epoch": 0.4503333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 19.948372395833335,
      "learning_rate": 0.0001,
      "loss": 8.031,
      "loss/crossentropy": 2.1690925747156142,
      "loss/hidden": 3.634765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2215597040951252,
      "step": 13510
    },
    {
      "epoch": 0.45066666666666666,
      "grad_norm": 32.25,
      "grad_norm_var": 11.6369140625,
      "learning_rate": 0.0001,
      "loss": 7.948,
      "loss/crossentropy": 2.134739102423191,
      "loss/hidden": 3.713671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2251646015793085,
      "step": 13520
    },
    {
      "epoch": 0.451,
      "grad_norm": 38.25,
      "grad_norm_var": 11.8212890625,
      "learning_rate": 0.0001,
      "loss": 7.8974,
      "loss/crossentropy": 2.251084867119789,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.214023519679904,
      "step": 13530
    },
    {
      "epoch": 0.4513333333333333,
      "grad_norm": 26.5,
      "grad_norm_var": 9.022916666666667,
      "learning_rate": 0.0001,
      "loss": 7.8569,
      "loss/crossentropy": 2.065364643931389,
      "loss/hidden": 3.59296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2112195746973157,
      "step": 13540
    },
    {
      "epoch": 0.45166666666666666,
      "grad_norm": 31.875,
      "grad_norm_var": 6.6087890625,
      "learning_rate": 0.0001,
      "loss": 8.094,
      "loss/crossentropy": 2.207910177111626,
      "loss/hidden": 3.665234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2230087785050273,
      "step": 13550
    },
    {
      "epoch": 0.452,
      "grad_norm": 32.25,
      "grad_norm_var": 2.4344770479298447e+18,
      "learning_rate": 0.0001,
      "loss": 8.0482,
      "loss/crossentropy": 2.0523271694779397,
      "loss/hidden": 3.74296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2225760780274868,
      "step": 13560
    },
    {
      "epoch": 0.4523333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 2.4344770485864627e+18,
      "learning_rate": 0.0001,
      "loss": 8.008,
      "loss/crossentropy": 2.1910267025232315,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2098704855889082,
      "step": 13570
    },
    {
      "epoch": 0.45266666666666666,
      "grad_norm": 29.75,
      "grad_norm_var": 10.664583333333333,
      "learning_rate": 0.0001,
      "loss": 8.1107,
      "loss/crossentropy": 2.2485829517245293,
      "loss/hidden": 3.705078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23670779224485158,
      "step": 13580
    },
    {
      "epoch": 0.453,
      "grad_norm": 29.375,
      "grad_norm_var": 11.153125,
      "learning_rate": 0.0001,
      "loss": 8.0307,
      "loss/crossentropy": 2.176164289563894,
      "loss/hidden": 3.590625,
      "loss/jsd": 0.0,
      "loss/logits": 0.216172288171947,
      "step": 13590
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 28.5,
      "grad_norm_var": 4.143489583333333,
      "learning_rate": 0.0001,
      "loss": 7.9631,
      "loss/crossentropy": 2.0201455272734163,
      "loss/hidden": 3.5984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20862020272761583,
      "step": 13600
    },
    {
      "epoch": 0.45366666666666666,
      "grad_norm": 32.25,
      "grad_norm_var": 13.143489583333333,
      "learning_rate": 0.0001,
      "loss": 8.0374,
      "loss/crossentropy": 2.041334181651473,
      "loss/hidden": 3.77578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22034290386363864,
      "step": 13610
    },
    {
      "epoch": 0.454,
      "grad_norm": 29.75,
      "grad_norm_var": 2.6327473958333334,
      "learning_rate": 0.0001,
      "loss": 8.0312,
      "loss/crossentropy": 2.2032358795404434,
      "loss/hidden": 3.691796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23516745883971452,
      "step": 13620
    },
    {
      "epoch": 0.4543333333333333,
      "grad_norm": 34.0,
      "grad_norm_var": 10.5134765625,
      "learning_rate": 0.0001,
      "loss": 8.0251,
      "loss/crossentropy": 2.212277019023895,
      "loss/hidden": 3.70703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24109804332256318,
      "step": 13630
    },
    {
      "epoch": 0.45466666666666666,
      "grad_norm": 29.375,
      "grad_norm_var": 10.6587890625,
      "learning_rate": 0.0001,
      "loss": 7.9654,
      "loss/crossentropy": 2.0316985830664636,
      "loss/hidden": 3.719921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22388876546174288,
      "step": 13640
    },
    {
      "epoch": 0.455,
      "grad_norm": 27.25,
      "grad_norm_var": 15.3166015625,
      "learning_rate": 0.0001,
      "loss": 7.9874,
      "loss/crossentropy": 1.9860161900520326,
      "loss/hidden": 3.616796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2077900541946292,
      "step": 13650
    },
    {
      "epoch": 0.4553333333333333,
      "grad_norm": 30.125,
      "grad_norm_var": 22.734830729166667,
      "learning_rate": 0.0001,
      "loss": 8.0461,
      "loss/crossentropy": 2.2462501987814902,
      "loss/hidden": 3.64921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2214917227625847,
      "step": 13660
    },
    {
      "epoch": 0.45566666666666666,
      "grad_norm": 30.875,
      "grad_norm_var": 10.469205729166667,
      "learning_rate": 0.0001,
      "loss": 7.9203,
      "loss/crossentropy": 1.9449552714824676,
      "loss/hidden": 3.7953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21775004733353853,
      "step": 13670
    },
    {
      "epoch": 0.456,
      "grad_norm": 32.5,
      "grad_norm_var": 3.26640625,
      "learning_rate": 0.0001,
      "loss": 8.0556,
      "loss/crossentropy": 2.0170522332191467,
      "loss/hidden": 3.7125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2343472855165601,
      "step": 13680
    },
    {
      "epoch": 0.4563333333333333,
      "grad_norm": 32.75,
      "grad_norm_var": 4.356184895833334,
      "learning_rate": 0.0001,
      "loss": 7.9995,
      "loss/crossentropy": 2.104297934472561,
      "loss/hidden": 3.646875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21948921959847212,
      "step": 13690
    },
    {
      "epoch": 0.45666666666666667,
      "grad_norm": 30.875,
      "grad_norm_var": 3.4082682291666666,
      "learning_rate": 0.0001,
      "loss": 7.9706,
      "loss/crossentropy": 2.0912899121642115,
      "loss/hidden": 3.707421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21979312859475614,
      "step": 13700
    },
    {
      "epoch": 0.457,
      "grad_norm": 30.75,
      "grad_norm_var": 3.9270833333333335,
      "learning_rate": 0.0001,
      "loss": 7.9165,
      "loss/crossentropy": 2.121154861152172,
      "loss/hidden": 3.65546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2177841143682599,
      "step": 13710
    },
    {
      "epoch": 0.4573333333333333,
      "grad_norm": 36.5,
      "grad_norm_var": 5.361393229166667,
      "learning_rate": 0.0001,
      "loss": 8.0071,
      "loss/crossentropy": 2.136076480150223,
      "loss/hidden": 3.635546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23270511198788882,
      "step": 13720
    },
    {
      "epoch": 0.45766666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 7.4634765625,
      "learning_rate": 0.0001,
      "loss": 8.0277,
      "loss/crossentropy": 2.091973701864481,
      "loss/hidden": 3.5796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20484627303667366,
      "step": 13730
    },
    {
      "epoch": 0.458,
      "grad_norm": 30.625,
      "grad_norm_var": 3.123893229166667,
      "learning_rate": 0.0001,
      "loss": 7.9874,
      "loss/crossentropy": 2.2389348953962327,
      "loss/hidden": 3.6984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2297331139445305,
      "step": 13740
    },
    {
      "epoch": 0.4583333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 3.8634765625,
      "learning_rate": 0.0001,
      "loss": 8.2201,
      "loss/crossentropy": 2.1332207426428793,
      "loss/hidden": 3.782421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24505181200802326,
      "step": 13750
    },
    {
      "epoch": 0.45866666666666667,
      "grad_norm": 31.125,
      "grad_norm_var": 2.3067057291666666,
      "learning_rate": 0.0001,
      "loss": 7.8715,
      "loss/crossentropy": 1.9607113853096962,
      "loss/hidden": 3.636328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21614569872617723,
      "step": 13760
    },
    {
      "epoch": 0.459,
      "grad_norm": 30.75,
      "grad_norm_var": 3.914322916666667,
      "learning_rate": 0.0001,
      "loss": 8.024,
      "loss/crossentropy": 2.0893411085009577,
      "loss/hidden": 3.710546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22553631979972125,
      "step": 13770
    },
    {
      "epoch": 0.4593333333333333,
      "grad_norm": 35.5,
      "grad_norm_var": 31.7822265625,
      "learning_rate": 0.0001,
      "loss": 8.0481,
      "loss/crossentropy": 2.132881796360016,
      "loss/hidden": 3.697265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23121243454515933,
      "step": 13780
    },
    {
      "epoch": 0.45966666666666667,
      "grad_norm": 30.875,
      "grad_norm_var": 30.0931640625,
      "learning_rate": 0.0001,
      "loss": 8.2036,
      "loss/crossentropy": 2.3052436083555223,
      "loss/hidden": 3.640234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23779372237622737,
      "step": 13790
    },
    {
      "epoch": 0.46,
      "grad_norm": 31.375,
      "grad_norm_var": 3.6020182291666667,
      "learning_rate": 0.0001,
      "loss": 8.0591,
      "loss/crossentropy": 2.032654400169849,
      "loss/hidden": 3.706640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22621268928050994,
      "step": 13800
    },
    {
      "epoch": 0.4603333333333333,
      "grad_norm": 30.125,
      "grad_norm_var": 13.4212890625,
      "learning_rate": 0.0001,
      "loss": 8.158,
      "loss/crossentropy": 2.011768199503422,
      "loss/hidden": 3.775390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21962493509054185,
      "step": 13810
    },
    {
      "epoch": 0.46066666666666667,
      "grad_norm": 33.5,
      "grad_norm_var": 13.245247395833333,
      "learning_rate": 0.0001,
      "loss": 7.9673,
      "loss/crossentropy": 2.0957317486405374,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21697306856513024,
      "step": 13820
    },
    {
      "epoch": 0.461,
      "grad_norm": 30.875,
      "grad_norm_var": 5.01640625,
      "learning_rate": 0.0001,
      "loss": 8.0855,
      "loss/crossentropy": 2.2701291263103487,
      "loss/hidden": 3.691796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2501831637695432,
      "step": 13830
    },
    {
      "epoch": 0.4613333333333333,
      "grad_norm": 38.5,
      "grad_norm_var": 6.1462890625,
      "learning_rate": 0.0001,
      "loss": 7.9714,
      "loss/crossentropy": 2.0974492438137533,
      "loss/hidden": 3.861328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2554807654581964,
      "step": 13840
    },
    {
      "epoch": 0.46166666666666667,
      "grad_norm": 31.75,
      "grad_norm_var": 5.338997395833333,
      "learning_rate": 0.0001,
      "loss": 7.9723,
      "loss/crossentropy": 2.0560192227363587,
      "loss/hidden": 3.7453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22991488091647624,
      "step": 13850
    },
    {
      "epoch": 0.462,
      "grad_norm": 33.75,
      "grad_norm_var": 3.0452473958333335,
      "learning_rate": 0.0001,
      "loss": 8.1789,
      "loss/crossentropy": 2.1576769910752773,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23487880751490592,
      "step": 13860
    },
    {
      "epoch": 0.4623333333333333,
      "grad_norm": 36.0,
      "grad_norm_var": 5.680208333333334,
      "learning_rate": 0.0001,
      "loss": 7.9999,
      "loss/crossentropy": 2.061297869682312,
      "loss/hidden": 3.701171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24054675735533237,
      "step": 13870
    },
    {
      "epoch": 0.46266666666666667,
      "grad_norm": 29.75,
      "grad_norm_var": 2.9879557291666665,
      "learning_rate": 0.0001,
      "loss": 8.0911,
      "loss/crossentropy": 2.0008441783487796,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22590927435085179,
      "step": 13880
    },
    {
      "epoch": 0.463,
      "grad_norm": 31.0,
      "grad_norm_var": 4.104622395833333,
      "learning_rate": 0.0001,
      "loss": 7.9195,
      "loss/crossentropy": 2.132499638199806,
      "loss/hidden": 3.634765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2145272171124816,
      "step": 13890
    },
    {
      "epoch": 0.4633333333333333,
      "grad_norm": 35.25,
      "grad_norm_var": 5.206705729166667,
      "learning_rate": 0.0001,
      "loss": 8.0658,
      "loss/crossentropy": 2.259749516099691,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2152292856015265,
      "step": 13900
    },
    {
      "epoch": 0.46366666666666667,
      "grad_norm": 31.75,
      "grad_norm_var": 3.825455729166667,
      "learning_rate": 0.0001,
      "loss": 7.924,
      "loss/crossentropy": 2.1031736478209497,
      "loss/hidden": 3.691796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23380641918629408,
      "step": 13910
    },
    {
      "epoch": 0.464,
      "grad_norm": 32.75,
      "grad_norm_var": 3.6497395833333335,
      "learning_rate": 0.0001,
      "loss": 8.152,
      "loss/crossentropy": 2.0122231051325796,
      "loss/hidden": 3.760546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22742101289331912,
      "step": 13920
    },
    {
      "epoch": 0.4643333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 4.8625,
      "learning_rate": 0.0001,
      "loss": 8.0922,
      "loss/crossentropy": 2.1263721615076063,
      "loss/hidden": 3.7046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22606851048767568,
      "step": 13930
    },
    {
      "epoch": 0.4646666666666667,
      "grad_norm": 30.5,
      "grad_norm_var": 2.9322265625,
      "learning_rate": 0.0001,
      "loss": 8.1061,
      "loss/crossentropy": 2.079650565981865,
      "loss/hidden": 3.73203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2313553038984537,
      "step": 13940
    },
    {
      "epoch": 0.465,
      "grad_norm": 30.125,
      "grad_norm_var": 5.832747395833334,
      "learning_rate": 0.0001,
      "loss": 7.9564,
      "loss/crossentropy": 2.284359359741211,
      "loss/hidden": 3.587109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22488110959529878,
      "step": 13950
    },
    {
      "epoch": 0.4653333333333333,
      "grad_norm": 30.75,
      "grad_norm_var": 2.8223307291666666,
      "learning_rate": 0.0001,
      "loss": 8.0784,
      "loss/crossentropy": 1.9363142460584641,
      "loss/hidden": 3.709375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22093999302014708,
      "step": 13960
    },
    {
      "epoch": 0.4656666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 16.656184895833334,
      "learning_rate": 0.0001,
      "loss": 8.1271,
      "loss/crossentropy": 2.150686714053154,
      "loss/hidden": 3.700390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2396129213273525,
      "step": 13970
    },
    {
      "epoch": 0.466,
      "grad_norm": 30.5,
      "grad_norm_var": 1.6785807291666666,
      "learning_rate": 0.0001,
      "loss": 8.0096,
      "loss/crossentropy": 2.039792370796204,
      "loss/hidden": 3.678515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23292775694280862,
      "step": 13980
    },
    {
      "epoch": 0.4663333333333333,
      "grad_norm": 30.75,
      "grad_norm_var": 3.801497395833333,
      "learning_rate": 0.0001,
      "loss": 7.9907,
      "loss/crossentropy": 2.0111122995615007,
      "loss/hidden": 3.690234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22928319536149502,
      "step": 13990
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 38.0,
      "grad_norm_var": 5.3822265625,
      "learning_rate": 0.0001,
      "loss": 7.9428,
      "loss/crossentropy": 2.140259427577257,
      "loss/hidden": 3.747265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23131428118795155,
      "step": 14000
    },
    {
      "epoch": 0.467,
      "grad_norm": 36.25,
      "grad_norm_var": 6.494791666666667,
      "learning_rate": 0.0001,
      "loss": 8.0925,
      "loss/crossentropy": 2.0670676976442337,
      "loss/hidden": 3.81953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2178192425519228,
      "step": 14010
    },
    {
      "epoch": 0.4673333333333333,
      "grad_norm": 34.25,
      "grad_norm_var": 4.870572916666666,
      "learning_rate": 0.0001,
      "loss": 8.002,
      "loss/crossentropy": 2.1283276975154877,
      "loss/hidden": 3.64140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2105252131819725,
      "step": 14020
    },
    {
      "epoch": 0.4676666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 2.8785807291666665,
      "learning_rate": 0.0001,
      "loss": 7.9375,
      "loss/crossentropy": 2.189284147322178,
      "loss/hidden": 3.700390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23593165911734104,
      "step": 14030
    },
    {
      "epoch": 0.468,
      "grad_norm": 33.0,
      "grad_norm_var": 1.7705729166666666,
      "learning_rate": 0.0001,
      "loss": 7.8595,
      "loss/crossentropy": 2.0938302144408225,
      "loss/hidden": 3.683203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2286398086696863,
      "step": 14040
    },
    {
      "epoch": 0.4683333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 7.680208333333334,
      "learning_rate": 0.0001,
      "loss": 7.8761,
      "loss/crossentropy": 2.1059680595993995,
      "loss/hidden": 3.79921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22907451894134284,
      "step": 14050
    },
    {
      "epoch": 0.4686666666666667,
      "grad_norm": 31.375,
      "grad_norm_var": 15.355208333333334,
      "learning_rate": 0.0001,
      "loss": 8.0853,
      "loss/crossentropy": 2.011585946381092,
      "loss/hidden": 3.675390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23615019097924234,
      "step": 14060
    },
    {
      "epoch": 0.469,
      "grad_norm": 31.875,
      "grad_norm_var": 10.226041666666667,
      "learning_rate": 0.0001,
      "loss": 8.0453,
      "loss/crossentropy": 2.1759623274207116,
      "loss/hidden": 3.6734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23897310364991425,
      "step": 14070
    },
    {
      "epoch": 0.4693333333333333,
      "grad_norm": 28.875,
      "grad_norm_var": 3.2926432291666665,
      "learning_rate": 0.0001,
      "loss": 7.9501,
      "loss/crossentropy": 2.1067129537463187,
      "loss/hidden": 3.684765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21687035337090493,
      "step": 14080
    },
    {
      "epoch": 0.4696666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 10.553125,
      "learning_rate": 0.0001,
      "loss": 7.8951,
      "loss/crossentropy": 2.073711508512497,
      "loss/hidden": 3.58359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20740561783313752,
      "step": 14090
    },
    {
      "epoch": 0.47,
      "grad_norm": 42.75,
      "grad_norm_var": 11.9791015625,
      "learning_rate": 0.0001,
      "loss": 8.0888,
      "loss/crossentropy": 2.1998244017362594,
      "loss/hidden": 3.66171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24048520512878896,
      "step": 14100
    },
    {
      "epoch": 0.4703333333333333,
      "grad_norm": 35.75,
      "grad_norm_var": 12.2572265625,
      "learning_rate": 0.0001,
      "loss": 7.9691,
      "loss/crossentropy": 1.9739395514130593,
      "loss/hidden": 3.6375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20827601440250873,
      "step": 14110
    },
    {
      "epoch": 0.4706666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 7.487239583333333,
      "learning_rate": 0.0001,
      "loss": 8.0045,
      "loss/crossentropy": 1.9031679958105088,
      "loss/hidden": 3.577734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22086440566927196,
      "step": 14120
    },
    {
      "epoch": 0.471,
      "grad_norm": 29.375,
      "grad_norm_var": 2.3363932291666667,
      "learning_rate": 0.0001,
      "loss": 7.9829,
      "loss/crossentropy": 2.1658167608082293,
      "loss/hidden": 3.58125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21573278903961182,
      "step": 14130
    },
    {
      "epoch": 0.4713333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 5.509375,
      "learning_rate": 0.0001,
      "loss": 8.0107,
      "loss/crossentropy": 2.1494806349277495,
      "loss/hidden": 3.708203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23198096118867398,
      "step": 14140
    },
    {
      "epoch": 0.4716666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 7.82890625,
      "learning_rate": 0.0001,
      "loss": 7.9608,
      "loss/crossentropy": 2.176995001733303,
      "loss/hidden": 3.669921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22184601295739412,
      "step": 14150
    },
    {
      "epoch": 0.472,
      "grad_norm": 31.5,
      "grad_norm_var": 7.715559895833334,
      "learning_rate": 0.0001,
      "loss": 7.9168,
      "loss/crossentropy": 2.1046732500195504,
      "loss/hidden": 3.767578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2493480734527111,
      "step": 14160
    },
    {
      "epoch": 0.4723333333333333,
      "grad_norm": 34.5,
      "grad_norm_var": 4.651822916666666,
      "learning_rate": 0.0001,
      "loss": 8.0195,
      "loss/crossentropy": 2.0825782030820847,
      "loss/hidden": 3.859765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21776366755366325,
      "step": 14170
    },
    {
      "epoch": 0.4726666666666667,
      "grad_norm": 30.25,
      "grad_norm_var": 2.594073359300323e+18,
      "learning_rate": 0.0001,
      "loss": 7.9941,
      "loss/crossentropy": 2.0367950215935706,
      "loss/hidden": 3.656640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21370016261935235,
      "step": 14180
    },
    {
      "epoch": 0.473,
      "grad_norm": 31.375,
      "grad_norm_var": 8.9119140625,
      "learning_rate": 0.0001,
      "loss": 7.9755,
      "loss/crossentropy": 2.044953337311745,
      "loss/hidden": 3.748828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23148317448794842,
      "step": 14190
    },
    {
      "epoch": 0.47333333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 3.4613932291666667,
      "learning_rate": 0.0001,
      "loss": 8.0085,
      "loss/crossentropy": 2.0775508999824526,
      "loss/hidden": 3.666796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21293406821787358,
      "step": 14200
    },
    {
      "epoch": 0.4736666666666667,
      "grad_norm": 34.0,
      "grad_norm_var": 3.6113932291666666,
      "learning_rate": 0.0001,
      "loss": 7.9466,
      "loss/crossentropy": 2.060066529363394,
      "loss/hidden": 3.63125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21972225215286018,
      "step": 14210
    },
    {
      "epoch": 0.474,
      "grad_norm": 29.625,
      "grad_norm_var": 14.949739583333333,
      "learning_rate": 0.0001,
      "loss": 7.9651,
      "loss/crossentropy": 2.1454847924411298,
      "loss/hidden": 3.675390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23835664317011834,
      "step": 14220
    },
    {
      "epoch": 0.47433333333333333,
      "grad_norm": 30.625,
      "grad_norm_var": 23.971809895833335,
      "learning_rate": 0.0001,
      "loss": 7.9706,
      "loss/crossentropy": 2.0558887153863905,
      "loss/hidden": 3.663671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22023830823600293,
      "step": 14230
    },
    {
      "epoch": 0.4746666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 5.146875,
      "learning_rate": 0.0001,
      "loss": 7.9699,
      "loss/crossentropy": 2.0701268397271635,
      "loss/hidden": 3.599609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21326845940202474,
      "step": 14240
    },
    {
      "epoch": 0.475,
      "grad_norm": 31.875,
      "grad_norm_var": 6.955989583333333,
      "learning_rate": 0.0001,
      "loss": 7.911,
      "loss/crossentropy": 2.0048009738326074,
      "loss/hidden": 3.685546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20537266619503497,
      "step": 14250
    },
    {
      "epoch": 0.47533333333333333,
      "grad_norm": 31.0,
      "grad_norm_var": 1.5291015625,
      "learning_rate": 0.0001,
      "loss": 8.0106,
      "loss/crossentropy": 1.9276894822716713,
      "loss/hidden": 3.639453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19781601782888175,
      "step": 14260
    },
    {
      "epoch": 0.4756666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 4.012955729166666,
      "learning_rate": 0.0001,
      "loss": 7.7983,
      "loss/crossentropy": 2.127088063955307,
      "loss/hidden": 3.523828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19607614930719136,
      "step": 14270
    },
    {
      "epoch": 0.476,
      "grad_norm": 32.25,
      "grad_norm_var": 4.188997395833334,
      "learning_rate": 0.0001,
      "loss": 7.859,
      "loss/crossentropy": 2.0276701495051386,
      "loss/hidden": 3.63515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22934147100895644,
      "step": 14280
    },
    {
      "epoch": 0.47633333333333333,
      "grad_norm": 28.875,
      "grad_norm_var": 15.313997395833333,
      "learning_rate": 0.0001,
      "loss": 7.9605,
      "loss/crossentropy": 2.1230327248573304,
      "loss/hidden": 3.80703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24875117875635624,
      "step": 14290
    },
    {
      "epoch": 0.4766666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 19.182291666666668,
      "learning_rate": 0.0001,
      "loss": 7.9298,
      "loss/crossentropy": 2.065612518787384,
      "loss/hidden": 3.6734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22124754767864943,
      "step": 14300
    },
    {
      "epoch": 0.477,
      "grad_norm": 30.75,
      "grad_norm_var": 10.710872395833333,
      "learning_rate": 0.0001,
      "loss": 7.812,
      "loss/crossentropy": 2.04611222743988,
      "loss/hidden": 3.694921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20459628701210023,
      "step": 14310
    },
    {
      "epoch": 0.47733333333333333,
      "grad_norm": 31.25,
      "grad_norm_var": 4.3697265625,
      "learning_rate": 0.0001,
      "loss": 8.1206,
      "loss/crossentropy": 2.121537686884403,
      "loss/hidden": 3.793359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2447736568748951,
      "step": 14320
    },
    {
      "epoch": 0.4776666666666667,
      "grad_norm": 35.0,
      "grad_norm_var": 6.0625,
      "learning_rate": 0.0001,
      "loss": 7.918,
      "loss/crossentropy": 1.9219128280878066,
      "loss/hidden": 3.623828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2076597328297794,
      "step": 14330
    },
    {
      "epoch": 0.478,
      "grad_norm": 33.5,
      "grad_norm_var": 9.618489583333334,
      "learning_rate": 0.0001,
      "loss": 7.8741,
      "loss/crossentropy": 2.039739317446947,
      "loss/hidden": 3.623046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21342823561280966,
      "step": 14340
    },
    {
      "epoch": 0.47833333333333333,
      "grad_norm": 30.0,
      "grad_norm_var": 10.0306640625,
      "learning_rate": 0.0001,
      "loss": 7.9885,
      "loss/crossentropy": 2.163815528154373,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20537124276161195,
      "step": 14350
    },
    {
      "epoch": 0.4786666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 3.658072916666667,
      "learning_rate": 0.0001,
      "loss": 8.0153,
      "loss/crossentropy": 2.087558428943157,
      "loss/hidden": 3.76640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2245228797197342,
      "step": 14360
    },
    {
      "epoch": 0.479,
      "grad_norm": 31.0,
      "grad_norm_var": 1.5530598958333333,
      "learning_rate": 0.0001,
      "loss": 7.9594,
      "loss/crossentropy": 2.2264768585562704,
      "loss/hidden": 3.705078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23378158863633872,
      "step": 14370
    },
    {
      "epoch": 0.47933333333333333,
      "grad_norm": 30.25,
      "grad_norm_var": 1.8177083333333333,
      "learning_rate": 0.0001,
      "loss": 7.9091,
      "loss/crossentropy": 2.1510671019554137,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21997169237583875,
      "step": 14380
    },
    {
      "epoch": 0.4796666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 4.183072916666666,
      "learning_rate": 0.0001,
      "loss": 8.1278,
      "loss/crossentropy": 1.996177999675274,
      "loss/hidden": 3.83203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22189988046884537,
      "step": 14390
    },
    {
      "epoch": 0.48,
      "grad_norm": 33.5,
      "grad_norm_var": 6.430143229166666,
      "learning_rate": 0.0001,
      "loss": 8.0033,
      "loss/crossentropy": 2.106117682904005,
      "loss/hidden": 3.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20855927262455226,
      "step": 14400
    },
    {
      "epoch": 0.48033333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 10.13515625,
      "learning_rate": 0.0001,
      "loss": 7.9176,
      "loss/crossentropy": 2.1830692276358605,
      "loss/hidden": 3.616796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2149069756269455,
      "step": 14410
    },
    {
      "epoch": 0.4806666666666667,
      "grad_norm": 31.875,
      "grad_norm_var": 8.387434895833334,
      "learning_rate": 0.0001,
      "loss": 8.0137,
      "loss/crossentropy": 2.2273536786437034,
      "loss/hidden": 3.727734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23837392879649996,
      "step": 14420
    },
    {
      "epoch": 0.481,
      "grad_norm": 29.375,
      "grad_norm_var": 7.53125,
      "learning_rate": 0.0001,
      "loss": 7.8473,
      "loss/crossentropy": 2.0939138531684875,
      "loss/hidden": 3.64453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20872913114726543,
      "step": 14430
    },
    {
      "epoch": 0.48133333333333334,
      "grad_norm": 30.375,
      "grad_norm_var": 5.299934895833333,
      "learning_rate": 0.0001,
      "loss": 7.9815,
      "loss/crossentropy": 2.166853901743889,
      "loss/hidden": 3.783203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24097004868090152,
      "step": 14440
    },
    {
      "epoch": 0.4816666666666667,
      "grad_norm": 32.0,
      "grad_norm_var": 3.1468098958333335,
      "learning_rate": 0.0001,
      "loss": 8.0419,
      "loss/crossentropy": 2.1047842048108576,
      "loss/hidden": 3.592578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20935575142502785,
      "step": 14450
    },
    {
      "epoch": 0.482,
      "grad_norm": 30.5,
      "grad_norm_var": 3.626030986454421e+18,
      "learning_rate": 0.0001,
      "loss": 7.9523,
      "loss/crossentropy": 2.057080474495888,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2086722683161497,
      "step": 14460
    },
    {
      "epoch": 0.48233333333333334,
      "grad_norm": 30.0,
      "grad_norm_var": 103.56223958333334,
      "learning_rate": 0.0001,
      "loss": 7.8493,
      "loss/crossentropy": 2.046734869480133,
      "loss/hidden": 3.613671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21412031259387732,
      "step": 14470
    },
    {
      "epoch": 0.4826666666666667,
      "grad_norm": 31.875,
      "grad_norm_var": 101.18307291666666,
      "learning_rate": 0.0001,
      "loss": 7.9051,
      "loss/crossentropy": 2.065974645316601,
      "loss/hidden": 3.724609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23375277630984784,
      "step": 14480
    },
    {
      "epoch": 0.483,
      "grad_norm": 31.25,
      "grad_norm_var": 5.0541015625,
      "learning_rate": 0.0001,
      "loss": 7.8899,
      "loss/crossentropy": 2.0884762033820152,
      "loss/hidden": 3.63203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20585475508123635,
      "step": 14490
    },
    {
      "epoch": 0.48333333333333334,
      "grad_norm": 32.25,
      "grad_norm_var": 2.6499348958333333,
      "learning_rate": 0.0001,
      "loss": 7.9974,
      "loss/crossentropy": 2.2915369153022764,
      "loss/hidden": 3.62890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2142224058508873,
      "step": 14500
    },
    {
      "epoch": 0.4836666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 6.114322916666667,
      "learning_rate": 0.0001,
      "loss": 8.0747,
      "loss/crossentropy": 2.240130066871643,
      "loss/hidden": 3.709375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23856233302503824,
      "step": 14510
    },
    {
      "epoch": 0.484,
      "grad_norm": 30.125,
      "grad_norm_var": 6.818684895833333,
      "learning_rate": 0.0001,
      "loss": 8.0631,
      "loss/crossentropy": 2.109334260225296,
      "loss/hidden": 3.775390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22316622659564017,
      "step": 14520
    },
    {
      "epoch": 0.48433333333333334,
      "grad_norm": 29.75,
      "grad_norm_var": 2.5233723958333334,
      "learning_rate": 0.0001,
      "loss": 7.9728,
      "loss/crossentropy": 2.1873391047120094,
      "loss/hidden": 3.580078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.213110950961709,
      "step": 14530
    },
    {
      "epoch": 0.4846666666666667,
      "grad_norm": 177.0,
      "grad_norm_var": 1326.0431640625,
      "learning_rate": 0.0001,
      "loss": 7.9814,
      "loss/crossentropy": 2.0492543891072272,
      "loss/hidden": 3.687890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22612165659666061,
      "step": 14540
    },
    {
      "epoch": 0.485,
      "grad_norm": 35.0,
      "grad_norm_var": 1308.9384765625,
      "learning_rate": 0.0001,
      "loss": 7.9937,
      "loss/crossentropy": 2.0765153512358667,
      "loss/hidden": 3.716796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21763208881020546,
      "step": 14550
    },
    {
      "epoch": 0.48533333333333334,
      "grad_norm": 35.25,
      "grad_norm_var": 7.351822916666666,
      "learning_rate": 0.0001,
      "loss": 7.9428,
      "loss/crossentropy": 2.065848244726658,
      "loss/hidden": 3.709375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21093793530017138,
      "step": 14560
    },
    {
      "epoch": 0.4856666666666667,
      "grad_norm": 34.75,
      "grad_norm_var": 4.43125,
      "learning_rate": 0.0001,
      "loss": 8.1182,
      "loss/crossentropy": 2.021928811073303,
      "loss/hidden": 3.63046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2118746515363455,
      "step": 14570
    },
    {
      "epoch": 0.486,
      "grad_norm": 35.25,
      "grad_norm_var": 6.9916015625,
      "learning_rate": 0.0001,
      "loss": 8.0468,
      "loss/crossentropy": 1.9547654077410699,
      "loss/hidden": 3.819140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23913611695170403,
      "step": 14580
    },
    {
      "epoch": 0.48633333333333334,
      "grad_norm": 33.25,
      "grad_norm_var": 833.4160807291667,
      "learning_rate": 0.0001,
      "loss": 8.0743,
      "loss/crossentropy": 1.9865302249789238,
      "loss/hidden": 3.90703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23207287043333052,
      "step": 14590
    },
    {
      "epoch": 0.4866666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 11.039322916666666,
      "learning_rate": 0.0001,
      "loss": 8.1016,
      "loss/crossentropy": 2.2250148117542268,
      "loss/hidden": 3.704296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21750411633402109,
      "step": 14600
    },
    {
      "epoch": 0.487,
      "grad_norm": 33.0,
      "grad_norm_var": 3.9218098958333334,
      "learning_rate": 0.0001,
      "loss": 7.9989,
      "loss/crossentropy": 2.0343859881162643,
      "loss/hidden": 3.581640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20473443409428,
      "step": 14610
    },
    {
      "epoch": 0.48733333333333334,
      "grad_norm": 33.5,
      "grad_norm_var": 102.97858072916667,
      "learning_rate": 0.0001,
      "loss": 8.0228,
      "loss/crossentropy": 2.1920588284730913,
      "loss/hidden": 3.72578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2238582916557789,
      "step": 14620
    },
    {
      "epoch": 0.4876666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 106.72057291666667,
      "learning_rate": 0.0001,
      "loss": 7.9914,
      "loss/crossentropy": 2.131534478068352,
      "loss/hidden": 3.618359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21192469485104085,
      "step": 14630
    },
    {
      "epoch": 0.488,
      "grad_norm": 37.0,
      "grad_norm_var": 130.6650390625,
      "learning_rate": 0.0001,
      "loss": 8.0006,
      "loss/crossentropy": 1.9975043579936027,
      "loss/hidden": 3.716796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20322852581739426,
      "step": 14640
    },
    {
      "epoch": 0.48833333333333334,
      "grad_norm": 30.375,
      "grad_norm_var": 125.80833333333334,
      "learning_rate": 0.0001,
      "loss": 7.9713,
      "loss/crossentropy": 2.1270855344831943,
      "loss/hidden": 3.663671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.220531555917114,
      "step": 14650
    },
    {
      "epoch": 0.4886666666666667,
      "grad_norm": 31.5,
      "grad_norm_var": 3.64765625,
      "learning_rate": 0.0001,
      "loss": 8.0117,
      "loss/crossentropy": 2.089583569765091,
      "loss/hidden": 3.6625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22326747328042984,
      "step": 14660
    },
    {
      "epoch": 0.489,
      "grad_norm": 30.75,
      "grad_norm_var": 4.487434895833333,
      "learning_rate": 0.0001,
      "loss": 7.9531,
      "loss/crossentropy": 1.9965915471315383,
      "loss/hidden": 3.665625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21961635909974575,
      "step": 14670
    },
    {
      "epoch": 0.48933333333333334,
      "grad_norm": 38.0,
      "grad_norm_var": 24.405989583333334,
      "learning_rate": 0.0001,
      "loss": 8.0753,
      "loss/crossentropy": 2.1705081194639204,
      "loss/hidden": 3.66484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21931095998734235,
      "step": 14680
    },
    {
      "epoch": 0.48966666666666664,
      "grad_norm": 36.0,
      "grad_norm_var": 12.178125,
      "learning_rate": 0.0001,
      "loss": 7.943,
      "loss/crossentropy": 2.050249530375004,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2148410253226757,
      "step": 14690
    },
    {
      "epoch": 0.49,
      "grad_norm": 30.125,
      "grad_norm_var": 4.697916666666667,
      "learning_rate": 0.0001,
      "loss": 7.9524,
      "loss/crossentropy": 2.0615778759121897,
      "loss/hidden": 3.587890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21635166741907597,
      "step": 14700
    },
    {
      "epoch": 0.49033333333333334,
      "grad_norm": 37.0,
      "grad_norm_var": 4.417643229166667,
      "learning_rate": 0.0001,
      "loss": 8.0631,
      "loss/crossentropy": 2.2596657291054725,
      "loss/hidden": 3.695703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23083409201353788,
      "step": 14710
    },
    {
      "epoch": 0.49066666666666664,
      "grad_norm": 39.5,
      "grad_norm_var": 16.4875,
      "learning_rate": 0.0001,
      "loss": 7.9577,
      "loss/crossentropy": 2.0465092822909354,
      "loss/hidden": 3.67890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22049062736332417,
      "step": 14720
    },
    {
      "epoch": 0.491,
      "grad_norm": 30.0,
      "grad_norm_var": 8.873893229166667,
      "learning_rate": 0.0001,
      "loss": 7.995,
      "loss/crossentropy": 2.16557691693306,
      "loss/hidden": 3.664453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21666408702731133,
      "step": 14730
    },
    {
      "epoch": 0.49133333333333334,
      "grad_norm": 33.75,
      "grad_norm_var": 5.620247395833333,
      "learning_rate": 0.0001,
      "loss": 7.9573,
      "loss/crossentropy": 2.158591315150261,
      "loss/hidden": 3.630859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22307645455002784,
      "step": 14740
    },
    {
      "epoch": 0.49166666666666664,
      "grad_norm": 31.5,
      "grad_norm_var": 9.358268229166667,
      "learning_rate": 0.0001,
      "loss": 7.9671,
      "loss/crossentropy": 2.0228962182998655,
      "loss/hidden": 3.733203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21425336729735137,
      "step": 14750
    },
    {
      "epoch": 0.492,
      "grad_norm": 44.75,
      "grad_norm_var": 16.083333333333332,
      "learning_rate": 0.0001,
      "loss": 7.9912,
      "loss/crossentropy": 2.1796020001173018,
      "loss/hidden": 3.570703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2131647277623415,
      "step": 14760
    },
    {
      "epoch": 0.49233333333333335,
      "grad_norm": 38.0,
      "grad_norm_var": 18.555989583333332,
      "learning_rate": 0.0001,
      "loss": 8.0265,
      "loss/crossentropy": 2.079108493030071,
      "loss/hidden": 3.732421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21902708765119314,
      "step": 14770
    },
    {
      "epoch": 0.49266666666666664,
      "grad_norm": 30.875,
      "grad_norm_var": 5.920247395833333,
      "learning_rate": 0.0001,
      "loss": 8.1693,
      "loss/crossentropy": 2.2386298209428785,
      "loss/hidden": 3.790234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24830550476908683,
      "step": 14780
    },
    {
      "epoch": 0.493,
      "grad_norm": 37.5,
      "grad_norm_var": 14.933333333333334,
      "learning_rate": 0.0001,
      "loss": 7.9356,
      "loss/crossentropy": 2.29894140958786,
      "loss/hidden": 3.671484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21857519987970592,
      "step": 14790
    },
    {
      "epoch": 0.49333333333333335,
      "grad_norm": 38.5,
      "grad_norm_var": 19.596809895833335,
      "learning_rate": 0.0001,
      "loss": 7.993,
      "loss/crossentropy": 2.003948637843132,
      "loss/hidden": 3.584765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20476762484759092,
      "step": 14800
    },
    {
      "epoch": 0.49366666666666664,
      "grad_norm": 31.625,
      "grad_norm_var": 9.97890625,
      "learning_rate": 0.0001,
      "loss": 8.0814,
      "loss/crossentropy": 2.151717406511307,
      "loss/hidden": 3.7,
      "loss/jsd": 0.0,
      "loss/logits": 0.22604979574680328,
      "step": 14810
    },
    {
      "epoch": 0.494,
      "grad_norm": 37.5,
      "grad_norm_var": 8.230989583333333,
      "learning_rate": 0.0001,
      "loss": 8.1202,
      "loss/crossentropy": 1.9646364904940128,
      "loss/hidden": 3.797265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24005853114649653,
      "step": 14820
    },
    {
      "epoch": 0.49433333333333335,
      "grad_norm": 29.875,
      "grad_norm_var": 10.67890625,
      "learning_rate": 0.0001,
      "loss": 8.032,
      "loss/crossentropy": 2.162761890888214,
      "loss/hidden": 3.69375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2281369637697935,
      "step": 14830
    },
    {
      "epoch": 0.49466666666666664,
      "grad_norm": 29.25,
      "grad_norm_var": 17.162955729166665,
      "learning_rate": 0.0001,
      "loss": 7.9308,
      "loss/crossentropy": 1.809071047604084,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20106423925608397,
      "step": 14840
    },
    {
      "epoch": 0.495,
      "grad_norm": 31.25,
      "grad_norm_var": 14.433268229166666,
      "learning_rate": 0.0001,
      "loss": 7.8974,
      "loss/crossentropy": 2.1457689851522446,
      "loss/hidden": 3.73984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24656938333064318,
      "step": 14850
    },
    {
      "epoch": 0.49533333333333335,
      "grad_norm": 29.125,
      "grad_norm_var": 12.724739583333333,
      "learning_rate": 0.0001,
      "loss": 8.0257,
      "loss/crossentropy": 2.097585503757,
      "loss/hidden": 3.728125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2211755273863673,
      "step": 14860
    },
    {
      "epoch": 0.49566666666666664,
      "grad_norm": 34.25,
      "grad_norm_var": 11.1931640625,
      "learning_rate": 0.0001,
      "loss": 8.0109,
      "loss/crossentropy": 2.1149248749017717,
      "loss/hidden": 3.628515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20364532712846994,
      "step": 14870
    },
    {
      "epoch": 0.496,
      "grad_norm": 29.625,
      "grad_norm_var": 2.5940733597902177e+18,
      "learning_rate": 0.0001,
      "loss": 8.023,
      "loss/crossentropy": 2.096835497021675,
      "loss/hidden": 3.75546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21487231757491826,
      "step": 14880
    },
    {
      "epoch": 0.49633333333333335,
      "grad_norm": 27.625,
      "grad_norm_var": 7.139583333333333,
      "learning_rate": 0.0001,
      "loss": 7.9587,
      "loss/crossentropy": 1.9992181949317456,
      "loss/hidden": 3.6421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20439089126884938,
      "step": 14890
    },
    {
      "epoch": 0.49666666666666665,
      "grad_norm": 31.0,
      "grad_norm_var": 11.989583333333334,
      "learning_rate": 0.0001,
      "loss": 8.0151,
      "loss/crossentropy": 1.997377061843872,
      "loss/hidden": 3.794921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22013774681836368,
      "step": 14900
    },
    {
      "epoch": 0.497,
      "grad_norm": 31.625,
      "grad_norm_var": 6.09765625,
      "learning_rate": 0.0001,
      "loss": 8.0484,
      "loss/crossentropy": 2.2603927135467528,
      "loss/hidden": 3.6703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22995477840304374,
      "step": 14910
    },
    {
      "epoch": 0.49733333333333335,
      "grad_norm": 28.25,
      "grad_norm_var": 2.544791666666667,
      "learning_rate": 0.0001,
      "loss": 7.9737,
      "loss/crossentropy": 2.167400282621384,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20647088065743446,
      "step": 14920
    },
    {
      "epoch": 0.49766666666666665,
      "grad_norm": 28.25,
      "grad_norm_var": 17.2556640625,
      "learning_rate": 0.0001,
      "loss": 7.9713,
      "loss/crossentropy": 1.9748560175299645,
      "loss/hidden": 3.684765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21687341015785933,
      "step": 14930
    },
    {
      "epoch": 0.498,
      "grad_norm": 34.75,
      "grad_norm_var": 15.188997395833333,
      "learning_rate": 0.0001,
      "loss": 7.9405,
      "loss/crossentropy": 2.1966336160898208,
      "loss/hidden": 3.56796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20776706095784903,
      "step": 14940
    },
    {
      "epoch": 0.49833333333333335,
      "grad_norm": 7079985152.0,
      "grad_norm_var": 3.1328868311327135e+18,
      "learning_rate": 0.0001,
      "loss": 7.9715,
      "loss/crossentropy": 2.108351056277752,
      "loss/hidden": 3.567578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21284203305840493,
      "step": 14950
    },
    {
      "epoch": 0.49866666666666665,
      "grad_norm": 32.5,
      "grad_norm_var": 3.1328868312875884e+18,
      "learning_rate": 0.0001,
      "loss": 8.0864,
      "loss/crossentropy": 2.0066813334822653,
      "loss/hidden": 3.6734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.226681593246758,
      "step": 14960
    },
    {
      "epoch": 0.499,
      "grad_norm": 33.5,
      "grad_norm_var": 2.80390625,
      "learning_rate": 0.0001,
      "loss": 8.0583,
      "loss/crossentropy": 1.9094878628849983,
      "loss/hidden": 3.566015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21297882869839668,
      "step": 14970
    },
    {
      "epoch": 0.49933333333333335,
      "grad_norm": 31.375,
      "grad_norm_var": 3.4322916666666665,
      "learning_rate": 0.0001,
      "loss": 7.9844,
      "loss/crossentropy": 2.138418735563755,
      "loss/hidden": 3.585546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.218233341909945,
      "step": 14980
    },
    {
      "epoch": 0.49966666666666665,
      "grad_norm": 32.25,
      "grad_norm_var": 2.3619140625,
      "learning_rate": 0.0001,
      "loss": 7.9809,
      "loss/crossentropy": 2.0114166542887686,
      "loss/hidden": 3.661328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21623858716338873,
      "step": 14990
    },
    {
      "epoch": 0.5,
      "grad_norm": 41.0,
      "grad_norm_var": 246.77180989583334,
      "learning_rate": 0.0001,
      "loss": 8.0603,
      "loss/crossentropy": 2.034164222329855,
      "loss/hidden": 3.712109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2103666251525283,
      "step": 15000
    },
    {
      "epoch": 0.5003333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 248.26640625,
      "learning_rate": 0.0001,
      "loss": 8.1163,
      "loss/crossentropy": 2.1978528052568436,
      "loss/hidden": 3.641796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2373816639184952,
      "step": 15010
    },
    {
      "epoch": 0.5006666666666667,
      "grad_norm": 31.375,
      "grad_norm_var": 2.21015625,
      "learning_rate": 0.0001,
      "loss": 7.9552,
      "loss/crossentropy": 2.03947726637125,
      "loss/hidden": 3.6125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2085746269673109,
      "step": 15020
    },
    {
      "epoch": 0.501,
      "grad_norm": 32.75,
      "grad_norm_var": 6.3572265625,
      "learning_rate": 0.0001,
      "loss": 8.1111,
      "loss/crossentropy": 2.008555364608765,
      "loss/hidden": 3.66171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20857672542333602,
      "step": 15030
    },
    {
      "epoch": 0.5013333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 4.277018229166667,
      "learning_rate": 0.0001,
      "loss": 7.942,
      "loss/crossentropy": 2.0552697718143462,
      "loss/hidden": 3.753125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21989797037094833,
      "step": 15040
    },
    {
      "epoch": 0.5016666666666667,
      "grad_norm": 169.0,
      "grad_norm_var": 1190.8098307291666,
      "learning_rate": 0.0001,
      "loss": 8.0327,
      "loss/crossentropy": 2.1051773697137834,
      "loss/hidden": 3.775390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2577056746929884,
      "step": 15050
    },
    {
      "epoch": 0.502,
      "grad_norm": 31.25,
      "grad_norm_var": 1164.67890625,
      "learning_rate": 0.0001,
      "loss": 8.0819,
      "loss/crossentropy": 2.186911401152611,
      "loss/hidden": 3.72421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21980911456048488,
      "step": 15060
    },
    {
      "epoch": 0.5023333333333333,
      "grad_norm": 28.0,
      "grad_norm_var": 4.070833333333334,
      "learning_rate": 0.0001,
      "loss": 8.0812,
      "loss/crossentropy": 2.112710100412369,
      "loss/hidden": 3.774609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23789308052510022,
      "step": 15070
    },
    {
      "epoch": 0.5026666666666667,
      "grad_norm": 29.0,
      "grad_norm_var": 7.726497395833333,
      "learning_rate": 0.0001,
      "loss": 8.0101,
      "loss/crossentropy": 2.1419308796525,
      "loss/hidden": 3.6109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21457258183509112,
      "step": 15080
    },
    {
      "epoch": 0.503,
      "grad_norm": 38.0,
      "grad_norm_var": 12497.576041666667,
      "learning_rate": 0.0001,
      "loss": 8.1218,
      "loss/crossentropy": 2.134933979809284,
      "loss/hidden": 3.790234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23342457674443723,
      "step": 15090
    },
    {
      "epoch": 0.5033333333333333,
      "grad_norm": 29.5,
      "grad_norm_var": 20.352083333333333,
      "learning_rate": 0.0001,
      "loss": 7.9202,
      "loss/crossentropy": 2.3430344820022584,
      "loss/hidden": 3.519140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2118502750992775,
      "step": 15100
    },
    {
      "epoch": 0.5036666666666667,
      "grad_norm": 35.25,
      "grad_norm_var": 22.322330729166666,
      "learning_rate": 0.0001,
      "loss": 7.9041,
      "loss/crossentropy": 1.9799678571522237,
      "loss/hidden": 3.635546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21085582114756107,
      "step": 15110
    },
    {
      "epoch": 0.504,
      "grad_norm": 30.625,
      "grad_norm_var": 16.030143229166665,
      "learning_rate": 0.0001,
      "loss": 7.9714,
      "loss/crossentropy": 1.9788647621870041,
      "loss/hidden": 3.731640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20716245826333762,
      "step": 15120
    },
    {
      "epoch": 0.5043333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 14.680989583333334,
      "learning_rate": 0.0001,
      "loss": 7.8813,
      "loss/crossentropy": 2.1622576892375944,
      "loss/hidden": 3.61875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21591525189578534,
      "step": 15130
    },
    {
      "epoch": 0.5046666666666667,
      "grad_norm": 34.25,
      "grad_norm_var": 12.263541666666667,
      "learning_rate": 0.0001,
      "loss": 8.0432,
      "loss/crossentropy": 2.158085845410824,
      "loss/hidden": 3.726953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22357744220644235,
      "step": 15140
    },
    {
      "epoch": 0.505,
      "grad_norm": 37.0,
      "grad_norm_var": 1032.2447265625,
      "learning_rate": 0.0001,
      "loss": 8.0755,
      "loss/crossentropy": 2.2892831161618235,
      "loss/hidden": 3.76328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23992609437555074,
      "step": 15150
    },
    {
      "epoch": 0.5053333333333333,
      "grad_norm": 34.0,
      "grad_norm_var": 1034.0916666666667,
      "learning_rate": 0.0001,
      "loss": 7.9403,
      "loss/crossentropy": 2.1311425492167473,
      "loss/hidden": 3.624609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21165461391210555,
      "step": 15160
    },
    {
      "epoch": 0.5056666666666667,
      "grad_norm": 29.25,
      "grad_norm_var": 3.64375,
      "learning_rate": 0.0001,
      "loss": 7.9553,
      "loss/crossentropy": 2.171247933804989,
      "loss/hidden": 3.805859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23857482858002185,
      "step": 15170
    },
    {
      "epoch": 0.506,
      "grad_norm": 28.75,
      "grad_norm_var": 2.582291666666667,
      "learning_rate": 0.0001,
      "loss": 7.9445,
      "loss/crossentropy": 1.846039692312479,
      "loss/hidden": 3.678515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19486570674926043,
      "step": 15180
    },
    {
      "epoch": 0.5063333333333333,
      "grad_norm": 34.75,
      "grad_norm_var": 6.375455729166666,
      "learning_rate": 0.0001,
      "loss": 8.0507,
      "loss/crossentropy": 2.1973116233944894,
      "loss/hidden": 3.7453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2503014124929905,
      "step": 15190
    },
    {
      "epoch": 0.5066666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 13.45625,
      "learning_rate": 0.0001,
      "loss": 8.0027,
      "loss/crossentropy": 1.9380142621695995,
      "loss/hidden": 3.798828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23612585961818694,
      "step": 15200
    },
    {
      "epoch": 0.507,
      "grad_norm": 31.0,
      "grad_norm_var": 4.994205729166667,
      "learning_rate": 0.0001,
      "loss": 7.9165,
      "loss/crossentropy": 1.953425794839859,
      "loss/hidden": 3.744921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24761936087161301,
      "step": 15210
    },
    {
      "epoch": 0.5073333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 6.151822916666666,
      "learning_rate": 0.0001,
      "loss": 7.947,
      "loss/crossentropy": 2.066864788532257,
      "loss/hidden": 3.654296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21229154095053673,
      "step": 15220
    },
    {
      "epoch": 0.5076666666666667,
      "grad_norm": 33.0,
      "grad_norm_var": 13.453059895833333,
      "learning_rate": 0.0001,
      "loss": 7.9878,
      "loss/crossentropy": 2.2750732988119124,
      "loss/hidden": 3.66640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.226811171323061,
      "step": 15230
    },
    {
      "epoch": 0.508,
      "grad_norm": 30.375,
      "grad_norm_var": 9.880143229166666,
      "learning_rate": 0.0001,
      "loss": 7.8715,
      "loss/crossentropy": 2.0473168551921845,
      "loss/hidden": 3.66015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20602242182940245,
      "step": 15240
    },
    {
      "epoch": 0.5083333333333333,
      "grad_norm": 34.25,
      "grad_norm_var": 7.327018229166667,
      "learning_rate": 0.0001,
      "loss": 8.1526,
      "loss/crossentropy": 2.1135044425725935,
      "loss/hidden": 3.73125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25442443899810313,
      "step": 15250
    },
    {
      "epoch": 0.5086666666666667,
      "grad_norm": 33.25,
      "grad_norm_var": 5.2322265625,
      "learning_rate": 0.0001,
      "loss": 7.9502,
      "loss/crossentropy": 2.002006813138723,
      "loss/hidden": 3.751953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22036314904689788,
      "step": 15260
    },
    {
      "epoch": 0.509,
      "grad_norm": 31.5,
      "grad_norm_var": 5.1212890625,
      "learning_rate": 0.0001,
      "loss": 7.9084,
      "loss/crossentropy": 2.3665783375501634,
      "loss/hidden": 3.685546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23151662331074477,
      "step": 15270
    },
    {
      "epoch": 0.5093333333333333,
      "grad_norm": 39.0,
      "grad_norm_var": 7.746809895833334,
      "learning_rate": 0.0001,
      "loss": 7.9309,
      "loss/crossentropy": 1.96308908239007,
      "loss/hidden": 3.65703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21435827864333987,
      "step": 15280
    },
    {
      "epoch": 0.5096666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 12.887239583333333,
      "learning_rate": 0.0001,
      "loss": 7.8462,
      "loss/crossentropy": 2.0475788712501526,
      "loss/hidden": 3.5890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.209853470697999,
      "step": 15290
    },
    {
      "epoch": 0.51,
      "grad_norm": 34.5,
      "grad_norm_var": 8.1666015625,
      "learning_rate": 0.0001,
      "loss": 7.9855,
      "loss/crossentropy": 2.048559895157814,
      "loss/hidden": 3.743359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22797312829643487,
      "step": 15300
    },
    {
      "epoch": 0.5103333333333333,
      "grad_norm": 30.25,
      "grad_norm_var": 4.605989583333334,
      "learning_rate": 0.0001,
      "loss": 7.9321,
      "loss/crossentropy": 2.081040045619011,
      "loss/hidden": 3.7390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22966741789132356,
      "step": 15310
    },
    {
      "epoch": 0.5106666666666667,
      "grad_norm": 33.75,
      "grad_norm_var": 5.2681640625,
      "learning_rate": 0.0001,
      "loss": 8.0778,
      "loss/crossentropy": 2.1107777029275896,
      "loss/hidden": 3.535546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20291287880390882,
      "step": 15320
    },
    {
      "epoch": 0.511,
      "grad_norm": 29.5,
      "grad_norm_var": 4.077083333333333,
      "learning_rate": 0.0001,
      "loss": 7.9746,
      "loss/crossentropy": 2.1766668647527694,
      "loss/hidden": 3.625390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21749209128320218,
      "step": 15330
    },
    {
      "epoch": 0.5113333333333333,
      "grad_norm": 35.75,
      "grad_norm_var": 6.962239583333333,
      "learning_rate": 0.0001,
      "loss": 8.039,
      "loss/crossentropy": 2.0856088645756246,
      "loss/hidden": 3.663671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22033254262059926,
      "step": 15340
    },
    {
      "epoch": 0.5116666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 6.554166666666666,
      "learning_rate": 0.0001,
      "loss": 7.9891,
      "loss/crossentropy": 2.093947410583496,
      "loss/hidden": 3.667578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22944947555661202,
      "step": 15350
    },
    {
      "epoch": 0.512,
      "grad_norm": 41.25,
      "grad_norm_var": 9.861393229166667,
      "learning_rate": 0.0001,
      "loss": 7.9193,
      "loss/crossentropy": 2.1564169749617577,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2197624057531357,
      "step": 15360
    },
    {
      "epoch": 0.5123333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 10.402018229166666,
      "learning_rate": 0.0001,
      "loss": 7.9731,
      "loss/crossentropy": 2.135643947124481,
      "loss/hidden": 3.63203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21202728524804115,
      "step": 15370
    },
    {
      "epoch": 0.5126666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 4.05323963237086e+18,
      "learning_rate": 0.0001,
      "loss": 7.9059,
      "loss/crossentropy": 1.9712642952799797,
      "loss/hidden": 3.63125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19932207949459552,
      "step": 15380
    },
    {
      "epoch": 0.513,
      "grad_norm": 32.0,
      "grad_norm_var": 4.053239631984984e+18,
      "learning_rate": 0.0001,
      "loss": 8.0131,
      "loss/crossentropy": 2.114562599360943,
      "loss/hidden": 3.741796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24068702533841133,
      "step": 15390
    },
    {
      "epoch": 0.5133333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 15.04140625,
      "learning_rate": 0.0001,
      "loss": 7.9017,
      "loss/crossentropy": 2.1701153457164764,
      "loss/hidden": 3.631640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21901333723217248,
      "step": 15400
    },
    {
      "epoch": 0.5136666666666667,
      "grad_norm": 29.25,
      "grad_norm_var": 8.6369140625,
      "learning_rate": 0.0001,
      "loss": 7.9558,
      "loss/crossentropy": 2.1302370369434356,
      "loss/hidden": 3.73359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22752520255744457,
      "step": 15410
    },
    {
      "epoch": 0.514,
      "grad_norm": 37.5,
      "grad_norm_var": 10.702018229166667,
      "learning_rate": 0.0001,
      "loss": 8.0334,
      "loss/crossentropy": 2.076037485152483,
      "loss/hidden": 3.653125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2252957560122013,
      "step": 15420
    },
    {
      "epoch": 0.5143333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 11.815625,
      "learning_rate": 0.0001,
      "loss": 7.9922,
      "loss/crossentropy": 2.090342365950346,
      "loss/hidden": 3.630859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2138144064694643,
      "step": 15430
    },
    {
      "epoch": 0.5146666666666667,
      "grad_norm": 39.0,
      "grad_norm_var": 28.45390625,
      "learning_rate": 0.0001,
      "loss": 8.0114,
      "loss/crossentropy": 2.163317432999611,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20781796853989362,
      "step": 15440
    },
    {
      "epoch": 0.515,
      "grad_norm": 34.5,
      "grad_norm_var": 10.485872395833333,
      "learning_rate": 0.0001,
      "loss": 7.9288,
      "loss/crossentropy": 2.043715859204531,
      "loss/hidden": 3.691015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2161100683733821,
      "step": 15450
    },
    {
      "epoch": 0.5153333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 5.3556640625,
      "learning_rate": 0.0001,
      "loss": 8.0563,
      "loss/crossentropy": 2.294564101099968,
      "loss/hidden": 3.6375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23372058011591434,
      "step": 15460
    },
    {
      "epoch": 0.5156666666666667,
      "grad_norm": 28.25,
      "grad_norm_var": 7.530989583333334,
      "learning_rate": 0.0001,
      "loss": 7.8509,
      "loss/crossentropy": 1.954894269257784,
      "loss/hidden": 3.632421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2037217952311039,
      "step": 15470
    },
    {
      "epoch": 0.516,
      "grad_norm": 31.375,
      "grad_norm_var": 16.819791666666667,
      "learning_rate": 0.0001,
      "loss": 7.7803,
      "loss/crossentropy": 2.1873670905828475,
      "loss/hidden": 3.649609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22097154781222345,
      "step": 15480
    },
    {
      "epoch": 0.5163333333333333,
      "grad_norm": 27.875,
      "grad_norm_var": 16.633072916666666,
      "learning_rate": 0.0001,
      "loss": 7.9936,
      "loss/crossentropy": 2.12020967900753,
      "loss/hidden": 3.719140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2284359024837613,
      "step": 15490
    },
    {
      "epoch": 0.5166666666666667,
      "grad_norm": 33.0,
      "grad_norm_var": 13.01875,
      "learning_rate": 0.0001,
      "loss": 8.0295,
      "loss/crossentropy": 2.144003964960575,
      "loss/hidden": 3.5765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2127245606854558,
      "step": 15500
    },
    {
      "epoch": 0.517,
      "grad_norm": 6140461056.0,
      "grad_norm_var": 2.3565788491207936e+18,
      "learning_rate": 0.0001,
      "loss": 7.9846,
      "loss/crossentropy": 2.0483295105397703,
      "loss/hidden": 3.84296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21562441848218442,
      "step": 15510
    },
    {
      "epoch": 0.5173333333333333,
      "grad_norm": 27.625,
      "grad_norm_var": 2.3565788492039455e+18,
      "learning_rate": 0.0001,
      "loss": 7.8762,
      "loss/crossentropy": 2.045905639976263,
      "loss/hidden": 3.5796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21305822925642132,
      "step": 15520
    },
    {
      "epoch": 0.5176666666666667,
      "grad_norm": 30.25,
      "grad_norm_var": 7.0087890625,
      "learning_rate": 0.0001,
      "loss": 7.9002,
      "loss/crossentropy": 2.0140881910920143,
      "loss/hidden": 3.78203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2302077604457736,
      "step": 15530
    },
    {
      "epoch": 0.518,
      "grad_norm": 31.375,
      "grad_norm_var": 8.4869140625,
      "learning_rate": 0.0001,
      "loss": 7.9189,
      "loss/crossentropy": 2.144743651151657,
      "loss/hidden": 3.662890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22745619527995586,
      "step": 15540
    },
    {
      "epoch": 0.5183333333333333,
      "grad_norm": 34.5,
      "grad_norm_var": 16.46640625,
      "learning_rate": 0.0001,
      "loss": 8.0041,
      "loss/crossentropy": 2.162237875163555,
      "loss/hidden": 3.667578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22348958030343055,
      "step": 15550
    },
    {
      "epoch": 0.5186666666666667,
      "grad_norm": 33.0,
      "grad_norm_var": 10.215625,
      "learning_rate": 0.0001,
      "loss": 7.9595,
      "loss/crossentropy": 2.1002556174993514,
      "loss/hidden": 3.69921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.221992826461792,
      "step": 15560
    },
    {
      "epoch": 0.519,
      "grad_norm": 28.5,
      "grad_norm_var": 11.612239583333333,
      "learning_rate": 0.0001,
      "loss": 7.9435,
      "loss/crossentropy": 2.1175016567111014,
      "loss/hidden": 3.697265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2175672125071287,
      "step": 15570
    },
    {
      "epoch": 0.5193333333333333,
      "grad_norm": 51.75,
      "grad_norm_var": 32.14479166666667,
      "learning_rate": 0.0001,
      "loss": 7.8969,
      "loss/crossentropy": 2.1000607915222647,
      "loss/hidden": 3.578515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22374147176742554,
      "step": 15580
    },
    {
      "epoch": 0.5196666666666667,
      "grad_norm": 35.25,
      "grad_norm_var": 216.00826822916667,
      "learning_rate": 0.0001,
      "loss": 7.9352,
      "loss/crossentropy": 2.062793227285147,
      "loss/hidden": 3.69765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22876775842159985,
      "step": 15590
    },
    {
      "epoch": 0.52,
      "grad_norm": 29.875,
      "grad_norm_var": 209.046875,
      "learning_rate": 0.0001,
      "loss": 7.9366,
      "loss/crossentropy": 2.120285242795944,
      "loss/hidden": 3.648046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21306953616440297,
      "step": 15600
    },
    {
      "epoch": 0.5203333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 6.2775390625,
      "learning_rate": 0.0001,
      "loss": 7.8629,
      "loss/crossentropy": 2.0886681511998177,
      "loss/hidden": 3.725,
      "loss/jsd": 0.0,
      "loss/logits": 0.23063711524009706,
      "step": 15610
    },
    {
      "epoch": 0.5206666666666667,
      "grad_norm": 42.75,
      "grad_norm_var": 2.3565788485707105e+18,
      "learning_rate": 0.0001,
      "loss": 7.9075,
      "loss/crossentropy": 2.059058104455471,
      "loss/hidden": 3.790625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2093208000063896,
      "step": 15620
    },
    {
      "epoch": 0.521,
      "grad_norm": 29.0,
      "grad_norm_var": 2.356578849024849e+18,
      "learning_rate": 0.0001,
      "loss": 8.0243,
      "loss/crossentropy": 2.0345511339604854,
      "loss/hidden": 3.615625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20063564516603946,
      "step": 15630
    },
    {
      "epoch": 0.5213333333333333,
      "grad_norm": 34.0,
      "grad_norm_var": 994.1535807291667,
      "learning_rate": 0.0001,
      "loss": 7.9865,
      "loss/crossentropy": 1.9753425560891629,
      "loss/hidden": 3.65390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21483086440712212,
      "step": 15640
    },
    {
      "epoch": 0.5216666666666666,
      "grad_norm": 30.125,
      "grad_norm_var": 23.786393229166666,
      "learning_rate": 0.0001,
      "loss": 7.9327,
      "loss/crossentropy": 2.0674639120697975,
      "loss/hidden": 3.81171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2364231664687395,
      "step": 15650
    },
    {
      "epoch": 0.522,
      "grad_norm": 28.875,
      "grad_norm_var": 258.47083333333336,
      "learning_rate": 0.0001,
      "loss": 7.9931,
      "loss/crossentropy": 1.968726746737957,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21212349347770215,
      "step": 15660
    },
    {
      "epoch": 0.5223333333333333,
      "grad_norm": 40.25,
      "grad_norm_var": 11.349739583333333,
      "learning_rate": 0.0001,
      "loss": 7.7757,
      "loss/crossentropy": 2.2387484058737757,
      "loss/hidden": 3.62109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21647185329347848,
      "step": 15670
    },
    {
      "epoch": 0.5226666666666666,
      "grad_norm": 27.5,
      "grad_norm_var": 13.4103515625,
      "learning_rate": 0.0001,
      "loss": 7.79,
      "loss/crossentropy": 2.063428644835949,
      "loss/hidden": 3.5640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21321867797523736,
      "step": 15680
    },
    {
      "epoch": 0.523,
      "grad_norm": 31.875,
      "grad_norm_var": 13.243489583333334,
      "learning_rate": 0.0001,
      "loss": 7.9336,
      "loss/crossentropy": 2.1281570941209793,
      "loss/hidden": 3.611328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22930383421480655,
      "step": 15690
    },
    {
      "epoch": 0.5233333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 13.87890625,
      "learning_rate": 0.0001,
      "loss": 7.9178,
      "loss/crossentropy": 2.07712532132864,
      "loss/hidden": 3.64375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21440593730658292,
      "step": 15700
    },
    {
      "epoch": 0.5236666666666666,
      "grad_norm": 33.0,
      "grad_norm_var": 62.56848958333333,
      "learning_rate": 0.0001,
      "loss": 7.8597,
      "loss/crossentropy": 2.111837570369244,
      "loss/hidden": 3.63984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2352095700800419,
      "step": 15710
    },
    {
      "epoch": 0.524,
      "grad_norm": 30.25,
      "grad_norm_var": 59.56295572916667,
      "learning_rate": 0.0001,
      "loss": 7.8544,
      "loss/crossentropy": 1.9604034937918187,
      "loss/hidden": 3.65390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21035183649510145,
      "step": 15720
    },
    {
      "epoch": 0.5243333333333333,
      "grad_norm": 30.25,
      "grad_norm_var": 19.3744140625,
      "learning_rate": 0.0001,
      "loss": 8.0273,
      "loss/crossentropy": 2.1459563463926314,
      "loss/hidden": 3.573828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21267954409122466,
      "step": 15730
    },
    {
      "epoch": 0.5246666666666666,
      "grad_norm": 30.0,
      "grad_norm_var": 23.273372395833334,
      "learning_rate": 0.0001,
      "loss": 7.9939,
      "loss/crossentropy": 2.1543472737073897,
      "loss/hidden": 3.731640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2248241593129933,
      "step": 15740
    },
    {
      "epoch": 0.525,
      "grad_norm": 36.25,
      "grad_norm_var": 5.14765625,
      "learning_rate": 0.0001,
      "loss": 7.9856,
      "loss/crossentropy": 2.0191838264465334,
      "loss/hidden": 3.64140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22251855283975602,
      "step": 15750
    },
    {
      "epoch": 0.5253333333333333,
      "grad_norm": 34.75,
      "grad_norm_var": 6.240625,
      "learning_rate": 0.0001,
      "loss": 8.0418,
      "loss/crossentropy": 2.22621650993824,
      "loss/hidden": 3.591796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21183471530675888,
      "step": 15760
    },
    {
      "epoch": 0.5256666666666666,
      "grad_norm": 34.0,
      "grad_norm_var": 8.637434895833334,
      "learning_rate": 0.0001,
      "loss": 7.9608,
      "loss/crossentropy": 2.0110961377620695,
      "loss/hidden": 3.655078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22007959876209499,
      "step": 15770
    },
    {
      "epoch": 0.526,
      "grad_norm": 34.75,
      "grad_norm_var": 9.070572916666666,
      "learning_rate": 0.0001,
      "loss": 7.9034,
      "loss/crossentropy": 1.9873220488429069,
      "loss/hidden": 3.691015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2183900134637952,
      "step": 15780
    },
    {
      "epoch": 0.5263333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 5.1853515625,
      "learning_rate": 0.0001,
      "loss": 7.9344,
      "loss/crossentropy": 1.9563458181917668,
      "loss/hidden": 3.67890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20562523752450942,
      "step": 15790
    },
    {
      "epoch": 0.5266666666666666,
      "grad_norm": 30.25,
      "grad_norm_var": 7.5353515625,
      "learning_rate": 0.0001,
      "loss": 8.0172,
      "loss/crossentropy": 2.1347015112638474,
      "loss/hidden": 3.6546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22778294049203396,
      "step": 15800
    },
    {
      "epoch": 0.527,
      "grad_norm": 29.625,
      "grad_norm_var": 8.6978515625,
      "learning_rate": 0.0001,
      "loss": 7.9092,
      "loss/crossentropy": 2.0619646534323692,
      "loss/hidden": 3.64140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2228071277961135,
      "step": 15810
    },
    {
      "epoch": 0.5273333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 3.0259765625,
      "learning_rate": 0.0001,
      "loss": 7.9127,
      "loss/crossentropy": 2.079516027867794,
      "loss/hidden": 3.61953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20713965147733687,
      "step": 15820
    },
    {
      "epoch": 0.5276666666666666,
      "grad_norm": 30.875,
      "grad_norm_var": 4.55390625,
      "learning_rate": 0.0001,
      "loss": 7.9888,
      "loss/crossentropy": 2.1745656400918962,
      "loss/hidden": 3.707421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22695780582726002,
      "step": 15830
    },
    {
      "epoch": 0.528,
      "grad_norm": 29.25,
      "grad_norm_var": 5.205208333333333,
      "learning_rate": 0.0001,
      "loss": 7.9376,
      "loss/crossentropy": 2.1931827545166014,
      "loss/hidden": 3.61171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21837961710989476,
      "step": 15840
    },
    {
      "epoch": 0.5283333333333333,
      "grad_norm": 37.0,
      "grad_norm_var": 5.242708333333334,
      "learning_rate": 0.0001,
      "loss": 7.973,
      "loss/crossentropy": 2.1738994657993316,
      "loss/hidden": 3.61953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21239091642200947,
      "step": 15850
    },
    {
      "epoch": 0.5286666666666666,
      "grad_norm": 32.0,
      "grad_norm_var": 2.6757714712718213e+18,
      "learning_rate": 0.0001,
      "loss": 7.8871,
      "loss/crossentropy": 2.017245587706566,
      "loss/hidden": 3.933203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2155450826510787,
      "step": 15860
    },
    {
      "epoch": 0.529,
      "grad_norm": 36.5,
      "grad_norm_var": 5.8291015625,
      "learning_rate": 0.0001,
      "loss": 8.0041,
      "loss/crossentropy": 2.173825052380562,
      "loss/hidden": 3.65390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22582603432238102,
      "step": 15870
    },
    {
      "epoch": 0.5293333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 5.437434895833333,
      "learning_rate": 0.0001,
      "loss": 7.8263,
      "loss/crossentropy": 1.9266249172389507,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.18464618194848298,
      "step": 15880
    },
    {
      "epoch": 0.5296666666666666,
      "grad_norm": 32.5,
      "grad_norm_var": 5.3228515625,
      "learning_rate": 0.0001,
      "loss": 7.8421,
      "loss/crossentropy": 2.084079180657864,
      "loss/hidden": 3.684375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21603441275656224,
      "step": 15890
    },
    {
      "epoch": 0.53,
      "grad_norm": 31.75,
      "grad_norm_var": 145.74479166666666,
      "learning_rate": 0.0001,
      "loss": 7.9261,
      "loss/crossentropy": 2.1224375024437903,
      "loss/hidden": 3.7546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2454449266195297,
      "step": 15900
    },
    {
      "epoch": 0.5303333333333333,
      "grad_norm": 32.75,
      "grad_norm_var": 4.843684895833333,
      "learning_rate": 0.0001,
      "loss": 8.0083,
      "loss/crossentropy": 2.198984383046627,
      "loss/hidden": 3.601171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22642315719276668,
      "step": 15910
    },
    {
      "epoch": 0.5306666666666666,
      "grad_norm": 32.0,
      "grad_norm_var": 2.9103515625,
      "learning_rate": 0.0001,
      "loss": 8.0344,
      "loss/crossentropy": 2.021199995279312,
      "loss/hidden": 3.823046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23787404000759124,
      "step": 15920
    },
    {
      "epoch": 0.531,
      "grad_norm": 34.0,
      "grad_norm_var": 3.325455729166667,
      "learning_rate": 0.0001,
      "loss": 7.9977,
      "loss/crossentropy": 2.1375532552599905,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21390576139092446,
      "step": 15930
    },
    {
      "epoch": 0.5313333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 3.0072916666666667,
      "learning_rate": 0.0001,
      "loss": 7.8004,
      "loss/crossentropy": 2.2248755604028703,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21414327146485448,
      "step": 15940
    },
    {
      "epoch": 0.5316666666666666,
      "grad_norm": 28.625,
      "grad_norm_var": 7.127083333333333,
      "learning_rate": 0.0001,
      "loss": 7.8167,
      "loss/crossentropy": 2.024421763420105,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2099402707070112,
      "step": 15950
    },
    {
      "epoch": 0.532,
      "grad_norm": 28.75,
      "grad_norm_var": 7.255989583333333,
      "learning_rate": 0.0001,
      "loss": 7.9159,
      "loss/crossentropy": 2.0035487972199917,
      "loss/hidden": 3.780078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23340979432687164,
      "step": 15960
    },
    {
      "epoch": 0.5323333333333333,
      "grad_norm": 31.75,
      "grad_norm_var": 28.76640625,
      "learning_rate": 0.0001,
      "loss": 8.009,
      "loss/crossentropy": 2.155665622651577,
      "loss/hidden": 3.703515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23035227973014116,
      "step": 15970
    },
    {
      "epoch": 0.5326666666666666,
      "grad_norm": 45.25,
      "grad_norm_var": 19.4119140625,
      "learning_rate": 0.0001,
      "loss": 8.0717,
      "loss/crossentropy": 2.0463739298284054,
      "loss/hidden": 3.700390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24000506065785884,
      "step": 15980
    },
    {
      "epoch": 0.533,
      "grad_norm": 32.75,
      "grad_norm_var": 20.661458333333332,
      "learning_rate": 0.0001,
      "loss": 7.9986,
      "loss/crossentropy": 2.107135473191738,
      "loss/hidden": 3.735546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22552732955664395,
      "step": 15990
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 28.625,
      "grad_norm_var": 13.914583333333333,
      "learning_rate": 0.0001,
      "loss": 7.9784,
      "loss/crossentropy": 2.142227107286453,
      "loss/hidden": 3.600390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21058713737875223,
      "step": 16000
    },
    {
      "epoch": 0.5336666666666666,
      "grad_norm": 33.0,
      "grad_norm_var": 18.480208333333334,
      "learning_rate": 0.0001,
      "loss": 7.9253,
      "loss/crossentropy": 2.209307189285755,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22212357576936484,
      "step": 16010
    },
    {
      "epoch": 0.534,
      "grad_norm": 27.625,
      "grad_norm_var": 7.594791666666667,
      "learning_rate": 0.0001,
      "loss": 7.8662,
      "loss/crossentropy": 2.009366624057293,
      "loss/hidden": 3.6296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22330178935080766,
      "step": 16020
    },
    {
      "epoch": 0.5343333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 11.910872395833334,
      "learning_rate": 0.0001,
      "loss": 8.0186,
      "loss/crossentropy": 2.1544925197958946,
      "loss/hidden": 3.6453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22340870313346387,
      "step": 16030
    },
    {
      "epoch": 0.5346666666666666,
      "grad_norm": 30.75,
      "grad_norm_var": 14.717122395833334,
      "learning_rate": 0.0001,
      "loss": 7.8662,
      "loss/crossentropy": 2.2394671350717545,
      "loss/hidden": 3.53671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21254578419029713,
      "step": 16040
    },
    {
      "epoch": 0.535,
      "grad_norm": 32.5,
      "grad_norm_var": 4.167708333333334,
      "learning_rate": 0.0001,
      "loss": 7.9273,
      "loss/crossentropy": 2.0182781517505646,
      "loss/hidden": 3.722265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23184970542788505,
      "step": 16050
    },
    {
      "epoch": 0.5353333333333333,
      "grad_norm": 34.75,
      "grad_norm_var": 3.883072916666667,
      "learning_rate": 0.0001,
      "loss": 7.9456,
      "loss/crossentropy": 2.200615034997463,
      "loss/hidden": 3.752734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2355814663693309,
      "step": 16060
    },
    {
      "epoch": 0.5356666666666666,
      "grad_norm": 31.0,
      "grad_norm_var": 10.541666666666666,
      "learning_rate": 0.0001,
      "loss": 7.9085,
      "loss/crossentropy": 1.7848753452301025,
      "loss/hidden": 3.684375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2178065821528435,
      "step": 16070
    },
    {
      "epoch": 0.536,
      "grad_norm": 30.375,
      "grad_norm_var": 9.554622395833333,
      "learning_rate": 0.0001,
      "loss": 7.9787,
      "loss/crossentropy": 2.126433804631233,
      "loss/hidden": 3.66640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2092861395329237,
      "step": 16080
    },
    {
      "epoch": 0.5363333333333333,
      "grad_norm": 31.875,
      "grad_norm_var": 2.609375,
      "learning_rate": 0.0001,
      "loss": 7.8776,
      "loss/crossentropy": 2.0730943456292152,
      "loss/hidden": 3.683984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22322714999318122,
      "step": 16090
    },
    {
      "epoch": 0.5366666666666666,
      "grad_norm": 31.5,
      "grad_norm_var": 4.9822265625,
      "learning_rate": 0.0001,
      "loss": 7.9642,
      "loss/crossentropy": 2.1567077368497847,
      "loss/hidden": 3.841015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24368763864040374,
      "step": 16100
    },
    {
      "epoch": 0.537,
      "grad_norm": 27.875,
      "grad_norm_var": 2.101822916666667,
      "learning_rate": 0.0001,
      "loss": 7.9671,
      "loss/crossentropy": 2.0234420910477637,
      "loss/hidden": 3.687109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20963803213089705,
      "step": 16110
    },
    {
      "epoch": 0.5373333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 2.290625,
      "learning_rate": 0.0001,
      "loss": 7.8891,
      "loss/crossentropy": 2.162296248972416,
      "loss/hidden": 3.69765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21969048418104647,
      "step": 16120
    },
    {
      "epoch": 0.5376666666666666,
      "grad_norm": 28.125,
      "grad_norm_var": 4.483072916666667,
      "learning_rate": 0.0001,
      "loss": 7.7938,
      "loss/crossentropy": 2.0626881010830402,
      "loss/hidden": 3.5109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20465954188257457,
      "step": 16130
    },
    {
      "epoch": 0.538,
      "grad_norm": 31.25,
      "grad_norm_var": 2.715625,
      "learning_rate": 0.0001,
      "loss": 7.9009,
      "loss/crossentropy": 2.1950813859701155,
      "loss/hidden": 3.492578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21106129735708237,
      "step": 16140
    },
    {
      "epoch": 0.5383333333333333,
      "grad_norm": 33.75,
      "grad_norm_var": 2.15,
      "learning_rate": 0.0001,
      "loss": 7.8827,
      "loss/crossentropy": 2.0365090548992155,
      "loss/hidden": 3.5890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19862626306712627,
      "step": 16150
    },
    {
      "epoch": 0.5386666666666666,
      "grad_norm": 29.875,
      "grad_norm_var": 2.46015625,
      "learning_rate": 0.0001,
      "loss": 8.0171,
      "loss/crossentropy": 2.0772834539413454,
      "loss/hidden": 3.652734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22482867874205112,
      "step": 16160
    },
    {
      "epoch": 0.539,
      "grad_norm": 31.5,
      "grad_norm_var": 13.727083333333333,
      "learning_rate": 0.0001,
      "loss": 7.9269,
      "loss/crossentropy": 2.0035090267658235,
      "loss/hidden": 3.639453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21533504147082566,
      "step": 16170
    },
    {
      "epoch": 0.5393333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 3.4058471876790845e+18,
      "learning_rate": 0.0001,
      "loss": 7.9526,
      "loss/crossentropy": 2.0684109210968016,
      "loss/hidden": 3.809765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24036269690841436,
      "step": 16180
    },
    {
      "epoch": 0.5396666666666666,
      "grad_norm": 29.75,
      "grad_norm_var": 1.0208333333333333,
      "learning_rate": 0.0001,
      "loss": 7.9665,
      "loss/crossentropy": 2.0767479740083217,
      "loss/hidden": 3.6546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22391563206911086,
      "step": 16190
    },
    {
      "epoch": 0.54,
      "grad_norm": 32.75,
      "grad_norm_var": 0.9249348958333333,
      "learning_rate": 0.0001,
      "loss": 7.8065,
      "loss/crossentropy": 2.070406360924244,
      "loss/hidden": 3.697265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22352562863379716,
      "step": 16200
    },
    {
      "epoch": 0.5403333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 2.8259765625,
      "learning_rate": 0.0001,
      "loss": 7.7915,
      "loss/crossentropy": 2.135431842878461,
      "loss/hidden": 3.585546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20899291220121086,
      "step": 16210
    },
    {
      "epoch": 0.5406666666666666,
      "grad_norm": 27.75,
      "grad_norm_var": 5.374934895833333,
      "learning_rate": 0.0001,
      "loss": 7.8726,
      "loss/crossentropy": 1.9553619243204594,
      "loss/hidden": 3.6859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21065005520358682,
      "step": 16220
    },
    {
      "epoch": 0.541,
      "grad_norm": 32.25,
      "grad_norm_var": 2.9205729166666665,
      "learning_rate": 0.0001,
      "loss": 7.9361,
      "loss/crossentropy": 2.235548512637615,
      "loss/hidden": 3.632421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23148855995386838,
      "step": 16230
    },
    {
      "epoch": 0.5413333333333333,
      "grad_norm": 28.75,
      "grad_norm_var": 5.443489583333333,
      "learning_rate": 0.0001,
      "loss": 7.9547,
      "loss/crossentropy": 2.0689282923936845,
      "loss/hidden": 3.73359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22652086950838565,
      "step": 16240
    },
    {
      "epoch": 0.5416666666666666,
      "grad_norm": 31.875,
      "grad_norm_var": 4.34765625,
      "learning_rate": 0.0001,
      "loss": 7.903,
      "loss/crossentropy": 1.9587130278348923,
      "loss/hidden": 3.82578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24109735526144505,
      "step": 16250
    },
    {
      "epoch": 0.542,
      "grad_norm": 31.0,
      "grad_norm_var": 2.956184895833333,
      "learning_rate": 0.0001,
      "loss": 7.9763,
      "loss/crossentropy": 2.231505811214447,
      "loss/hidden": 3.670703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22332519851624966,
      "step": 16260
    },
    {
      "epoch": 0.5423333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 2.87890625,
      "learning_rate": 0.0001,
      "loss": 7.9534,
      "loss/crossentropy": 2.21473398655653,
      "loss/hidden": 3.684765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2405968852341175,
      "step": 16270
    },
    {
      "epoch": 0.5426666666666666,
      "grad_norm": 31.125,
      "grad_norm_var": 2.044205729166667,
      "learning_rate": 0.0001,
      "loss": 7.8368,
      "loss/crossentropy": 2.0223120510578156,
      "loss/hidden": 3.600390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20706812832504512,
      "step": 16280
    },
    {
      "epoch": 0.543,
      "grad_norm": 31.125,
      "grad_norm_var": 3.6705729166666665,
      "learning_rate": 0.0001,
      "loss": 8.1192,
      "loss/crossentropy": 2.2137394294142725,
      "loss/hidden": 3.80234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24676046203821897,
      "step": 16290
    },
    {
      "epoch": 0.5433333333333333,
      "grad_norm": 31.875,
      "grad_norm_var": 2.3997395833333335,
      "learning_rate": 0.0001,
      "loss": 8.0137,
      "loss/crossentropy": 2.1324679240584374,
      "loss/hidden": 3.715234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21872996147722007,
      "step": 16300
    },
    {
      "epoch": 0.5436666666666666,
      "grad_norm": 30.875,
      "grad_norm_var": 6.243489583333333,
      "learning_rate": 0.0001,
      "loss": 8.0561,
      "loss/crossentropy": 2.1422536253929136,
      "loss/hidden": 3.705078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24038595696911216,
      "step": 16310
    },
    {
      "epoch": 0.544,
      "grad_norm": 28.875,
      "grad_norm_var": 15.54375,
      "learning_rate": 0.0001,
      "loss": 7.9935,
      "loss/crossentropy": 1.994092260301113,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20646399296820164,
      "step": 16320
    },
    {
      "epoch": 0.5443333333333333,
      "grad_norm": 34.5,
      "grad_norm_var": 8.833072916666667,
      "learning_rate": 0.0001,
      "loss": 7.8759,
      "loss/crossentropy": 2.1263050198554994,
      "loss/hidden": 3.73359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23247295394539833,
      "step": 16330
    },
    {
      "epoch": 0.5446666666666666,
      "grad_norm": 32.25,
      "grad_norm_var": 3.8926432291666666,
      "learning_rate": 0.0001,
      "loss": 7.8947,
      "loss/crossentropy": 2.1508326224982737,
      "loss/hidden": 3.615625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22677485179156065,
      "step": 16340
    },
    {
      "epoch": 0.545,
      "grad_norm": 33.75,
      "grad_norm_var": 3.565625,
      "learning_rate": 0.0001,
      "loss": 7.9352,
      "loss/crossentropy": 2.146810656785965,
      "loss/hidden": 3.7203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22902542352676392,
      "step": 16350
    },
    {
      "epoch": 0.5453333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 2.5322916666666666,
      "learning_rate": 0.0001,
      "loss": 7.895,
      "loss/crossentropy": 2.1730375468730925,
      "loss/hidden": 3.6609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22302960231900215,
      "step": 16360
    },
    {
      "epoch": 0.5456666666666666,
      "grad_norm": 28.875,
      "grad_norm_var": 2.1747395833333334,
      "learning_rate": 0.0001,
      "loss": 7.965,
      "loss/crossentropy": 2.1157036066055297,
      "loss/hidden": 3.708203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24063412323594094,
      "step": 16370
    },
    {
      "epoch": 0.546,
      "grad_norm": 29.75,
      "grad_norm_var": 6.789322916666666,
      "learning_rate": 0.0001,
      "loss": 7.9686,
      "loss/crossentropy": 2.04927616417408,
      "loss/hidden": 3.698828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21224019005894662,
      "step": 16380
    },
    {
      "epoch": 0.5463333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 5.550455729166667,
      "learning_rate": 0.0001,
      "loss": 7.9747,
      "loss/crossentropy": 2.068675779551268,
      "loss/hidden": 3.584765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2084495802409947,
      "step": 16390
    },
    {
      "epoch": 0.5466666666666666,
      "grad_norm": 30.875,
      "grad_norm_var": 1.5639973958333333,
      "learning_rate": 0.0001,
      "loss": 7.988,
      "loss/crossentropy": 2.0940013602375984,
      "loss/hidden": 3.691796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22360229659825565,
      "step": 16400
    },
    {
      "epoch": 0.547,
      "grad_norm": 31.625,
      "grad_norm_var": 1.7455729166666667,
      "learning_rate": 0.0001,
      "loss": 8.0907,
      "loss/crossentropy": 2.1774737536907196,
      "loss/hidden": 3.6859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22327901497483255,
      "step": 16410
    },
    {
      "epoch": 0.5473333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 4.50625,
      "learning_rate": 0.0001,
      "loss": 8.0022,
      "loss/crossentropy": 2.1608075901865957,
      "loss/hidden": 3.700390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25244998149573805,
      "step": 16420
    },
    {
      "epoch": 0.5476666666666666,
      "grad_norm": 31.875,
      "grad_norm_var": 3.2671223958333333,
      "learning_rate": 0.0001,
      "loss": 8.1234,
      "loss/crossentropy": 1.982553929835558,
      "loss/hidden": 3.565625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20166566986590623,
      "step": 16430
    },
    {
      "epoch": 0.548,
      "grad_norm": 32.5,
      "grad_norm_var": 1.7520833333333334,
      "learning_rate": 0.0001,
      "loss": 8.037,
      "loss/crossentropy": 2.0213874965906142,
      "loss/hidden": 3.787109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23120209593325852,
      "step": 16440
    },
    {
      "epoch": 0.5483333333333333,
      "grad_norm": 32.5,
      "grad_norm_var": 2.7625,
      "learning_rate": 0.0001,
      "loss": 7.9356,
      "loss/crossentropy": 2.0151995003223417,
      "loss/hidden": 3.6828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21384722124785185,
      "step": 16450
    },
    {
      "epoch": 0.5486666666666666,
      "grad_norm": 30.75,
      "grad_norm_var": 2.8580729166666665,
      "learning_rate": 0.0001,
      "loss": 8.0426,
      "loss/crossentropy": 2.258426922559738,
      "loss/hidden": 3.57109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21724292561411856,
      "step": 16460
    },
    {
      "epoch": 0.549,
      "grad_norm": 30.625,
      "grad_norm_var": 2.6211653255110676e+18,
      "learning_rate": 0.0001,
      "loss": 7.8979,
      "loss/crossentropy": 2.1004390507936477,
      "loss/hidden": 3.63125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2168941769748926,
      "step": 16470
    },
    {
      "epoch": 0.5493333333333333,
      "grad_norm": 32.0,
      "grad_norm_var": 21.358072916666668,
      "learning_rate": 0.0001,
      "loss": 7.9368,
      "loss/crossentropy": 2.234841299057007,
      "loss/hidden": 3.671484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22458531036973,
      "step": 16480
    },
    {
      "epoch": 0.5496666666666666,
      "grad_norm": 31.0,
      "grad_norm_var": 19.398372395833334,
      "learning_rate": 0.0001,
      "loss": 7.7756,
      "loss/crossentropy": 1.9220365844666958,
      "loss/hidden": 3.650390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21966882292181253,
      "step": 16490
    },
    {
      "epoch": 0.55,
      "grad_norm": 29.25,
      "grad_norm_var": 10.578059895833333,
      "learning_rate": 0.0001,
      "loss": 7.9483,
      "loss/crossentropy": 2.137505892664194,
      "loss/hidden": 3.684375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20756643787026405,
      "step": 16500
    },
    {
      "epoch": 0.5503333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 4.569791666666666,
      "learning_rate": 0.0001,
      "loss": 7.842,
      "loss/crossentropy": 2.163301798701286,
      "loss/hidden": 3.641015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21592859141528606,
      "step": 16510
    },
    {
      "epoch": 0.5506666666666666,
      "grad_norm": 30.25,
      "grad_norm_var": 1.9749348958333333,
      "learning_rate": 0.0001,
      "loss": 7.9053,
      "loss/crossentropy": 1.8833866529166698,
      "loss/hidden": 3.783203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22102598939090967,
      "step": 16520
    },
    {
      "epoch": 0.551,
      "grad_norm": 30.5,
      "grad_norm_var": 2.0176432291666666,
      "learning_rate": 0.0001,
      "loss": 7.8003,
      "loss/crossentropy": 1.942694688588381,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21318345218896867,
      "step": 16530
    },
    {
      "epoch": 0.5513333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 2.539322916666667,
      "learning_rate": 0.0001,
      "loss": 7.7828,
      "loss/crossentropy": 2.0692317470908166,
      "loss/hidden": 3.541015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20164419133216144,
      "step": 16540
    },
    {
      "epoch": 0.5516666666666666,
      "grad_norm": 29.5,
      "grad_norm_var": 2.595572916666667,
      "learning_rate": 0.0001,
      "loss": 7.9161,
      "loss/crossentropy": 2.046563369035721,
      "loss/hidden": 3.6890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22405224461108447,
      "step": 16550
    },
    {
      "epoch": 0.552,
      "grad_norm": 34.75,
      "grad_norm_var": 3.570572916666667,
      "learning_rate": 0.0001,
      "loss": 7.9911,
      "loss/crossentropy": 2.018775662779808,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21541824340820312,
      "step": 16560
    },
    {
      "epoch": 0.5523333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 3.6080729166666665,
      "learning_rate": 0.0001,
      "loss": 7.9031,
      "loss/crossentropy": 2.25411321669817,
      "loss/hidden": 3.666015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2227392230182886,
      "step": 16570
    },
    {
      "epoch": 0.5526666666666666,
      "grad_norm": 30.25,
      "grad_norm_var": 2.8603515625,
      "learning_rate": 0.0001,
      "loss": 7.8556,
      "loss/crossentropy": 2.0392999947071075,
      "loss/hidden": 3.684375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2251502934843302,
      "step": 16580
    },
    {
      "epoch": 0.553,
      "grad_norm": 30.75,
      "grad_norm_var": 3.153125,
      "learning_rate": 0.0001,
      "loss": 7.7396,
      "loss/crossentropy": 1.9471760131418705,
      "loss/hidden": 3.534765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1881936783902347,
      "step": 16590
    },
    {
      "epoch": 0.5533333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 4.223883836303868e+18,
      "learning_rate": 0.0001,
      "loss": 7.9172,
      "loss/crossentropy": 2.0934195905923842,
      "loss/hidden": 3.65703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.217781463265419,
      "step": 16600
    },
    {
      "epoch": 0.5536666666666666,
      "grad_norm": 30.125,
      "grad_norm_var": 4.223883835918516e+18,
      "learning_rate": 0.0001,
      "loss": 7.8719,
      "loss/crossentropy": 2.053102213144302,
      "loss/hidden": 3.6890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22234885692596434,
      "step": 16610
    },
    {
      "epoch": 0.554,
      "grad_norm": 32.0,
      "grad_norm_var": 4.234309895833333,
      "learning_rate": 0.0001,
      "loss": 7.9785,
      "loss/crossentropy": 2.0579131454229356,
      "loss/hidden": 3.679296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22978297639638184,
      "step": 16620
    },
    {
      "epoch": 0.5543333333333333,
      "grad_norm": 29.0,
      "grad_norm_var": 6.4478515625,
      "learning_rate": 0.0001,
      "loss": 7.9221,
      "loss/crossentropy": 2.098356659710407,
      "loss/hidden": 3.72421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22436762768775226,
      "step": 16630
    },
    {
      "epoch": 0.5546666666666666,
      "grad_norm": 29.25,
      "grad_norm_var": 3.4427083333333335,
      "learning_rate": 0.0001,
      "loss": 7.8154,
      "loss/crossentropy": 1.9613312944769858,
      "loss/hidden": 3.689453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21493730675429107,
      "step": 16640
    },
    {
      "epoch": 0.555,
      "grad_norm": 29.5,
      "grad_norm_var": 1.4729166666666667,
      "learning_rate": 0.0001,
      "loss": 7.9289,
      "loss/crossentropy": 1.970650000870228,
      "loss/hidden": 3.795703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22653428725898267,
      "step": 16650
    },
    {
      "epoch": 0.5553333333333333,
      "grad_norm": 31.75,
      "grad_norm_var": 2.425,
      "learning_rate": 0.0001,
      "loss": 7.8909,
      "loss/crossentropy": 2.1313917048275473,
      "loss/hidden": 3.67421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2265587305650115,
      "step": 16660
    },
    {
      "epoch": 0.5556666666666666,
      "grad_norm": 32.5,
      "grad_norm_var": 3.2223307291666665,
      "learning_rate": 0.0001,
      "loss": 7.8742,
      "loss/crossentropy": 2.010394226014614,
      "loss/hidden": 3.540625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19476988408714532,
      "step": 16670
    },
    {
      "epoch": 0.556,
      "grad_norm": 33.25,
      "grad_norm_var": 2.989518229166667,
      "learning_rate": 0.0001,
      "loss": 7.9211,
      "loss/crossentropy": 2.206305223703384,
      "loss/hidden": 3.595703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22279220167547464,
      "step": 16680
    },
    {
      "epoch": 0.5563333333333333,
      "grad_norm": 29.5,
      "grad_norm_var": 7.698372395833333,
      "learning_rate": 0.0001,
      "loss": 7.8795,
      "loss/crossentropy": 2.1127166926860808,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2053209213539958,
      "step": 16690
    },
    {
      "epoch": 0.5566666666666666,
      "grad_norm": 30.25,
      "grad_norm_var": 3.4082682291666666,
      "learning_rate": 0.0001,
      "loss": 7.9118,
      "loss/crossentropy": 1.980313377827406,
      "loss/hidden": 3.665234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19750017933547498,
      "step": 16700
    },
    {
      "epoch": 0.557,
      "grad_norm": 32.0,
      "grad_norm_var": 4.745572916666666,
      "learning_rate": 0.0001,
      "loss": 7.8491,
      "loss/crossentropy": 2.187881177663803,
      "loss/hidden": 3.666796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2327125236392021,
      "step": 16710
    },
    {
      "epoch": 0.5573333333333333,
      "grad_norm": 30.125,
      "grad_norm_var": 3.0895182291666665,
      "learning_rate": 0.0001,
      "loss": 7.8578,
      "loss/crossentropy": 2.0527888640761374,
      "loss/hidden": 3.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24014483857899904,
      "step": 16720
    },
    {
      "epoch": 0.5576666666666666,
      "grad_norm": 29.125,
      "grad_norm_var": 2.315625,
      "learning_rate": 0.0001,
      "loss": 7.7581,
      "loss/crossentropy": 1.989125171303749,
      "loss/hidden": 3.584765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20171179957687854,
      "step": 16730
    },
    {
      "epoch": 0.558,
      "grad_norm": 34.0,
      "grad_norm_var": 3.3030598958333335,
      "learning_rate": 0.0001,
      "loss": 7.8911,
      "loss/crossentropy": 1.909910400211811,
      "loss/hidden": 3.766015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2186163429170847,
      "step": 16740
    },
    {
      "epoch": 0.5583333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 3.330208333333333,
      "learning_rate": 0.0001,
      "loss": 7.8985,
      "loss/crossentropy": 2.0753150559961795,
      "loss/hidden": 3.61640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21899790465831756,
      "step": 16750
    },
    {
      "epoch": 0.5586666666666666,
      "grad_norm": 30.875,
      "grad_norm_var": 2.187239583333333,
      "learning_rate": 0.0001,
      "loss": 7.8861,
      "loss/crossentropy": 2.1016260892152787,
      "loss/hidden": 3.615625,
      "loss/jsd": 0.0,
      "loss/logits": 0.210488342307508,
      "step": 16760
    },
    {
      "epoch": 0.559,
      "grad_norm": 31.0,
      "grad_norm_var": 2.8421223958333335,
      "learning_rate": 0.0001,
      "loss": 8.0766,
      "loss/crossentropy": 2.208987255394459,
      "loss/hidden": 3.822265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.245903043076396,
      "step": 16770
    },
    {
      "epoch": 0.5593333333333333,
      "grad_norm": 36.25,
      "grad_norm_var": 320.3322265625,
      "learning_rate": 0.0001,
      "loss": 7.9084,
      "loss/crossentropy": 2.0669932678341865,
      "loss/hidden": 3.662109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21224353071302177,
      "step": 16780
    },
    {
      "epoch": 0.5596666666666666,
      "grad_norm": 43.5,
      "grad_norm_var": 305.8958333333333,
      "learning_rate": 0.0001,
      "loss": 8.0134,
      "loss/crossentropy": 2.2563454896211623,
      "loss/hidden": 3.6125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22311148904263972,
      "step": 16790
    },
    {
      "epoch": 0.56,
      "grad_norm": 32.75,
      "grad_norm_var": 20.851497395833334,
      "learning_rate": 0.0001,
      "loss": 8.0603,
      "loss/crossentropy": 2.2054395377635956,
      "loss/hidden": 3.583203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20811190865933896,
      "step": 16800
    },
    {
      "epoch": 0.5603333333333333,
      "grad_norm": 28.25,
      "grad_norm_var": 2.448958333333333,
      "learning_rate": 0.0001,
      "loss": 7.7593,
      "loss/crossentropy": 2.236998660862446,
      "loss/hidden": 3.611328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22802891582250595,
      "step": 16810
    },
    {
      "epoch": 0.5606666666666666,
      "grad_norm": 31.5,
      "grad_norm_var": 3.7239583333333335,
      "learning_rate": 0.0001,
      "loss": 7.7787,
      "loss/crossentropy": 1.884455829113722,
      "loss/hidden": 3.53828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19550493340939284,
      "step": 16820
    },
    {
      "epoch": 0.561,
      "grad_norm": 32.25,
      "grad_norm_var": 3.5822265625,
      "learning_rate": 0.0001,
      "loss": 7.9028,
      "loss/crossentropy": 2.0985020123422147,
      "loss/hidden": 3.604296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2114247432909906,
      "step": 16830
    },
    {
      "epoch": 0.5613333333333334,
      "grad_norm": 29.75,
      "grad_norm_var": 2.0468098958333334,
      "learning_rate": 0.0001,
      "loss": 7.9145,
      "loss/crossentropy": 1.935218346118927,
      "loss/hidden": 3.733203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22361029600724577,
      "step": 16840
    },
    {
      "epoch": 0.5616666666666666,
      "grad_norm": 29.75,
      "grad_norm_var": 2.8337890625,
      "learning_rate": 0.0001,
      "loss": 7.8986,
      "loss/crossentropy": 1.9841939061880112,
      "loss/hidden": 3.7,
      "loss/jsd": 0.0,
      "loss/logits": 0.20547962225973607,
      "step": 16850
    },
    {
      "epoch": 0.562,
      "grad_norm": 33.0,
      "grad_norm_var": 10.559830729166666,
      "learning_rate": 0.0001,
      "loss": 7.9661,
      "loss/crossentropy": 2.242799472808838,
      "loss/hidden": 3.653515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24114026986062526,
      "step": 16860
    },
    {
      "epoch": 0.5623333333333334,
      "grad_norm": 30.75,
      "grad_norm_var": 10.02265625,
      "learning_rate": 0.0001,
      "loss": 7.9501,
      "loss/crossentropy": 2.272703301906586,
      "loss/hidden": 3.5921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.219810495339334,
      "step": 16870
    },
    {
      "epoch": 0.5626666666666666,
      "grad_norm": 28.75,
      "grad_norm_var": 8.073893229166666,
      "learning_rate": 0.0001,
      "loss": 7.8381,
      "loss/crossentropy": 1.99768578261137,
      "loss/hidden": 3.56796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.229691500402987,
      "step": 16880
    },
    {
      "epoch": 0.563,
      "grad_norm": 30.625,
      "grad_norm_var": 3.9358723958333335,
      "learning_rate": 0.0001,
      "loss": 7.7505,
      "loss/crossentropy": 1.958486919105053,
      "loss/hidden": 3.501171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19877009009942412,
      "step": 16890
    },
    {
      "epoch": 0.5633333333333334,
      "grad_norm": 31.625,
      "grad_norm_var": 12.167643229166666,
      "learning_rate": 0.0001,
      "loss": 7.9282,
      "loss/crossentropy": 2.2899662777781487,
      "loss/hidden": 3.60703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22736097928136587,
      "step": 16900
    },
    {
      "epoch": 0.5636666666666666,
      "grad_norm": 31.625,
      "grad_norm_var": 1.9051432291666666,
      "learning_rate": 0.0001,
      "loss": 7.9337,
      "loss/crossentropy": 2.046753417700529,
      "loss/hidden": 3.581640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20713044237345457,
      "step": 16910
    },
    {
      "epoch": 0.564,
      "grad_norm": 31.5,
      "grad_norm_var": 12.576041666666667,
      "learning_rate": 0.0001,
      "loss": 7.8576,
      "loss/crossentropy": 2.137194776535034,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22013001535087823,
      "step": 16920
    },
    {
      "epoch": 0.5643333333333334,
      "grad_norm": 31.25,
      "grad_norm_var": 15.774934895833333,
      "learning_rate": 0.0001,
      "loss": 7.913,
      "loss/crossentropy": 1.9944169409573078,
      "loss/hidden": 3.628125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21307808943092824,
      "step": 16930
    },
    {
      "epoch": 0.5646666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 5.337955729166667,
      "learning_rate": 0.0001,
      "loss": 7.886,
      "loss/crossentropy": 2.018931347131729,
      "loss/hidden": 3.6046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21659799050539733,
      "step": 16940
    },
    {
      "epoch": 0.565,
      "grad_norm": 30.375,
      "grad_norm_var": 7.773958333333334,
      "learning_rate": 0.0001,
      "loss": 7.8816,
      "loss/crossentropy": 2.0590699821710587,
      "loss/hidden": 3.665234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20541296005249024,
      "step": 16950
    },
    {
      "epoch": 0.5653333333333334,
      "grad_norm": 31.5,
      "grad_norm_var": 5.34140625,
      "learning_rate": 0.0001,
      "loss": 7.9332,
      "loss/crossentropy": 2.048498646169901,
      "loss/hidden": 3.7015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21477829590439795,
      "step": 16960
    },
    {
      "epoch": 0.5656666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 2.6676432291666665,
      "learning_rate": 0.0001,
      "loss": 7.864,
      "loss/crossentropy": 2.0648021958768368,
      "loss/hidden": 3.712109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2224846264347434,
      "step": 16970
    },
    {
      "epoch": 0.566,
      "grad_norm": 33.5,
      "grad_norm_var": 2.24765625,
      "learning_rate": 0.0001,
      "loss": 7.7163,
      "loss/crossentropy": 2.107031860947609,
      "loss/hidden": 3.53671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20737082306295634,
      "step": 16980
    },
    {
      "epoch": 0.5663333333333334,
      "grad_norm": 32.0,
      "grad_norm_var": 7.234830729166666,
      "learning_rate": 0.0001,
      "loss": 8.0486,
      "loss/crossentropy": 2.139879457652569,
      "loss/hidden": 3.6375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23415213711559774,
      "step": 16990
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 28.375,
      "grad_norm_var": 26.10625,
      "learning_rate": 0.0001,
      "loss": 7.9511,
      "loss/crossentropy": 2.0089096277952194,
      "loss/hidden": 3.590234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20133000621572136,
      "step": 17000
    },
    {
      "epoch": 0.567,
      "grad_norm": 32.5,
      "grad_norm_var": 28.608072916666668,
      "learning_rate": 0.0001,
      "loss": 7.8054,
      "loss/crossentropy": 1.9827151045203208,
      "loss/hidden": 3.64296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2022013606503606,
      "step": 17010
    },
    {
      "epoch": 0.5673333333333334,
      "grad_norm": 30.5,
      "grad_norm_var": 519.3660807291667,
      "learning_rate": 0.0001,
      "loss": 8.0306,
      "loss/crossentropy": 2.227891056239605,
      "loss/hidden": 3.672265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23921767324209214,
      "step": 17020
    },
    {
      "epoch": 0.5676666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 517.3622395833333,
      "learning_rate": 0.0001,
      "loss": 7.7689,
      "loss/crossentropy": 1.9673498637974263,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20032266862690448,
      "step": 17030
    },
    {
      "epoch": 0.568,
      "grad_norm": 35.0,
      "grad_norm_var": 5.939583333333333,
      "learning_rate": 0.0001,
      "loss": 7.8396,
      "loss/crossentropy": 2.0264181800186636,
      "loss/hidden": 3.62734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22799574863165617,
      "step": 17040
    },
    {
      "epoch": 0.5683333333333334,
      "grad_norm": 30.75,
      "grad_norm_var": 4.541666666666667,
      "learning_rate": 0.0001,
      "loss": 7.8507,
      "loss/crossentropy": 2.1397699415683746,
      "loss/hidden": 3.669140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22351325545459985,
      "step": 17050
    },
    {
      "epoch": 0.5686666666666667,
      "grad_norm": 33.0,
      "grad_norm_var": 3.1244140625,
      "learning_rate": 0.0001,
      "loss": 7.9212,
      "loss/crossentropy": 2.0302638575434684,
      "loss/hidden": 3.717578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21876529976725578,
      "step": 17060
    },
    {
      "epoch": 0.569,
      "grad_norm": 36.75,
      "grad_norm_var": 6.9625,
      "learning_rate": 0.0001,
      "loss": 7.9896,
      "loss/crossentropy": 2.150805290043354,
      "loss/hidden": 3.660546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22219337709248066,
      "step": 17070
    },
    {
      "epoch": 0.5693333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 3.405847187879013e+18,
      "learning_rate": 0.0001,
      "loss": 8.0392,
      "loss/crossentropy": 2.158428954333067,
      "loss/hidden": 3.6515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22352358270436526,
      "step": 17080
    },
    {
      "epoch": 0.5696666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 3.405847188432661e+18,
      "learning_rate": 0.0001,
      "loss": 7.9175,
      "loss/crossentropy": 2.0420360594987867,
      "loss/hidden": 3.608203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20006783921271562,
      "step": 17090
    },
    {
      "epoch": 0.57,
      "grad_norm": 28.75,
      "grad_norm_var": 3.9212890625,
      "learning_rate": 0.0001,
      "loss": 7.9392,
      "loss/crossentropy": 2.012987617403269,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21622594874352216,
      "step": 17100
    },
    {
      "epoch": 0.5703333333333334,
      "grad_norm": 33.75,
      "grad_norm_var": 4.261393229166667,
      "learning_rate": 0.0001,
      "loss": 7.891,
      "loss/crossentropy": 1.951448941975832,
      "loss/hidden": 3.6390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22058595921844243,
      "step": 17110
    },
    {
      "epoch": 0.5706666666666667,
      "grad_norm": 29.25,
      "grad_norm_var": 1.7567057291666666,
      "learning_rate": 0.0001,
      "loss": 7.8458,
      "loss/crossentropy": 2.106409525871277,
      "loss/hidden": 3.5765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20967069901525975,
      "step": 17120
    },
    {
      "epoch": 0.571,
      "grad_norm": 30.25,
      "grad_norm_var": 1.96875,
      "learning_rate": 0.0001,
      "loss": 7.7126,
      "loss/crossentropy": 2.0033893555402758,
      "loss/hidden": 3.51640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1892759721726179,
      "step": 17130
    },
    {
      "epoch": 0.5713333333333334,
      "grad_norm": 28.5,
      "grad_norm_var": 2.662239583333333,
      "learning_rate": 0.0001,
      "loss": 7.8506,
      "loss/crossentropy": 2.1353479593992235,
      "loss/hidden": 3.612890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21052795574069022,
      "step": 17140
    },
    {
      "epoch": 0.5716666666666667,
      "grad_norm": 32.5,
      "grad_norm_var": 2.648398029737392e+18,
      "learning_rate": 0.0001,
      "loss": 7.9248,
      "loss/crossentropy": 2.06460902094841,
      "loss/hidden": 3.50859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20914022997021675,
      "step": 17150
    },
    {
      "epoch": 0.572,
      "grad_norm": 30.5,
      "grad_norm_var": 2.648398030388348e+18,
      "learning_rate": 0.0001,
      "loss": 7.9167,
      "loss/crossentropy": 2.0927888706326483,
      "loss/hidden": 3.646484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23212119033560158,
      "step": 17160
    },
    {
      "epoch": 0.5723333333333334,
      "grad_norm": 29.375,
      "grad_norm_var": 5.845833333333333,
      "learning_rate": 0.0001,
      "loss": 7.7342,
      "loss/crossentropy": 1.9288011252880097,
      "loss/hidden": 3.569140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19227788979187607,
      "step": 17170
    },
    {
      "epoch": 0.5726666666666667,
      "grad_norm": 31.75,
      "grad_norm_var": 5.4416015625,
      "learning_rate": 0.0001,
      "loss": 7.8135,
      "loss/crossentropy": 2.0256782703101637,
      "loss/hidden": 3.76328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22770339585840702,
      "step": 17180
    },
    {
      "epoch": 0.573,
      "grad_norm": 30.75,
      "grad_norm_var": 3.3447265625,
      "learning_rate": 0.0001,
      "loss": 7.8143,
      "loss/crossentropy": 2.1895001590251923,
      "loss/hidden": 3.615625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21934428252279758,
      "step": 17190
    },
    {
      "epoch": 0.5733333333333334,
      "grad_norm": 28.25,
      "grad_norm_var": 3.7504557291666667,
      "learning_rate": 0.0001,
      "loss": 7.7612,
      "loss/crossentropy": 2.141167312860489,
      "loss/hidden": 3.6140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2146891826763749,
      "step": 17200
    },
    {
      "epoch": 0.5736666666666667,
      "grad_norm": 33.25,
      "grad_norm_var": 4.369791666666667,
      "learning_rate": 0.0001,
      "loss": 7.7998,
      "loss/crossentropy": 2.129530963301659,
      "loss/hidden": 3.57578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21841056421399116,
      "step": 17210
    },
    {
      "epoch": 0.574,
      "grad_norm": 34.25,
      "grad_norm_var": 5.690559895833333,
      "learning_rate": 0.0001,
      "loss": 7.7933,
      "loss/crossentropy": 2.0486621774733065,
      "loss/hidden": 3.641015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23156200405210256,
      "step": 17220
    },
    {
      "epoch": 0.5743333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 1.8551432291666667,
      "learning_rate": 0.0001,
      "loss": 7.7678,
      "loss/crossentropy": 1.8859696760773659,
      "loss/hidden": 3.709765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22125184228643774,
      "step": 17230
    },
    {
      "epoch": 0.5746666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 0.84140625,
      "learning_rate": 0.0001,
      "loss": 7.9437,
      "loss/crossentropy": 2.071402122825384,
      "loss/hidden": 3.684375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21905634058639406,
      "step": 17240
    },
    {
      "epoch": 0.575,
      "grad_norm": 30.375,
      "grad_norm_var": 1.1559895833333333,
      "learning_rate": 0.0001,
      "loss": 7.9371,
      "loss/crossentropy": 2.094747845083475,
      "loss/hidden": 3.583984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21283579124137758,
      "step": 17250
    },
    {
      "epoch": 0.5753333333333334,
      "grad_norm": 30.875,
      "grad_norm_var": 1.7791015625,
      "learning_rate": 0.0001,
      "loss": 7.8497,
      "loss/crossentropy": 2.0071739844977854,
      "loss/hidden": 3.646875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2293556292541325,
      "step": 17260
    },
    {
      "epoch": 0.5756666666666667,
      "grad_norm": 36.75,
      "grad_norm_var": 5.1978515625,
      "learning_rate": 0.0001,
      "loss": 7.8883,
      "loss/crossentropy": 2.0315137624740602,
      "loss/hidden": 3.611328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21106694657355546,
      "step": 17270
    },
    {
      "epoch": 0.576,
      "grad_norm": 32.75,
      "grad_norm_var": 4.042122395833333,
      "learning_rate": 0.0001,
      "loss": 7.7853,
      "loss/crossentropy": 2.161001367866993,
      "loss/hidden": 3.676953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22858329731971025,
      "step": 17280
    },
    {
      "epoch": 0.5763333333333334,
      "grad_norm": 29.75,
      "grad_norm_var": 2.7973307291666667,
      "learning_rate": 0.0001,
      "loss": 7.8583,
      "loss/crossentropy": 2.130069175362587,
      "loss/hidden": 3.63359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2083722459152341,
      "step": 17290
    },
    {
      "epoch": 0.5766666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 3.4238932291666666,
      "learning_rate": 0.0001,
      "loss": 7.8721,
      "loss/crossentropy": 2.082015645503998,
      "loss/hidden": 3.614453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20946309231221677,
      "step": 17300
    },
    {
      "epoch": 0.577,
      "grad_norm": 30.75,
      "grad_norm_var": 3.5875,
      "learning_rate": 0.0001,
      "loss": 7.9545,
      "loss/crossentropy": 2.096890838444233,
      "loss/hidden": 3.560546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20209384206682443,
      "step": 17310
    },
    {
      "epoch": 0.5773333333333334,
      "grad_norm": 34.75,
      "grad_norm_var": 4.995572916666666,
      "learning_rate": 0.0001,
      "loss": 7.8557,
      "loss/crossentropy": 2.106398382782936,
      "loss/hidden": 3.70546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21345611102879047,
      "step": 17320
    },
    {
      "epoch": 0.5776666666666667,
      "grad_norm": 34.0,
      "grad_norm_var": 2.546875,
      "learning_rate": 0.0001,
      "loss": 7.8012,
      "loss/crossentropy": 2.096838581562042,
      "loss/hidden": 3.58828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2053753226995468,
      "step": 17330
    },
    {
      "epoch": 0.578,
      "grad_norm": 26.875,
      "grad_norm_var": 2.9572464468024796e+18,
      "learning_rate": 0.0001,
      "loss": 7.8668,
      "loss/crossentropy": 2.1166788838803767,
      "loss/hidden": 3.55546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20833127275109292,
      "step": 17340
    },
    {
      "epoch": 0.5783333333333334,
      "grad_norm": 29.625,
      "grad_norm_var": 7.27265625,
      "learning_rate": 0.0001,
      "loss": 7.7414,
      "loss/crossentropy": 1.9886778131127358,
      "loss/hidden": 3.65390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21065135411918162,
      "step": 17350
    },
    {
      "epoch": 0.5786666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 11.183268229166666,
      "learning_rate": 0.0001,
      "loss": 7.9642,
      "loss/crossentropy": 2.0476474441587924,
      "loss/hidden": 3.547265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21347164940088986,
      "step": 17360
    },
    {
      "epoch": 0.579,
      "grad_norm": 32.75,
      "grad_norm_var": 10.703059895833333,
      "learning_rate": 0.0001,
      "loss": 7.8541,
      "loss/crossentropy": 2.146274469792843,
      "loss/hidden": 3.580859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24069792926311492,
      "step": 17370
    },
    {
      "epoch": 0.5793333333333334,
      "grad_norm": 33.0,
      "grad_norm_var": 3.1455729166666666,
      "learning_rate": 0.0001,
      "loss": 7.8856,
      "loss/crossentropy": 2.0081627793610095,
      "loss/hidden": 3.589453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20462132934480906,
      "step": 17380
    },
    {
      "epoch": 0.5796666666666667,
      "grad_norm": 30.625,
      "grad_norm_var": 4.042708333333334,
      "learning_rate": 0.0001,
      "loss": 7.8438,
      "loss/crossentropy": 2.133964368700981,
      "loss/hidden": 3.604296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2076242446899414,
      "step": 17390
    },
    {
      "epoch": 0.58,
      "grad_norm": 33.25,
      "grad_norm_var": 1.9681640625,
      "learning_rate": 0.0001,
      "loss": 7.883,
      "loss/crossentropy": 1.9912319853901863,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22393401358276604,
      "step": 17400
    },
    {
      "epoch": 0.5803333333333334,
      "grad_norm": 28.625,
      "grad_norm_var": 4.534309895833333,
      "learning_rate": 0.0001,
      "loss": 7.8925,
      "loss/crossentropy": 2.1712723806500436,
      "loss/hidden": 3.639453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2111651472747326,
      "step": 17410
    },
    {
      "epoch": 0.5806666666666667,
      "grad_norm": 31.125,
      "grad_norm_var": 2.540311639717402e+18,
      "learning_rate": 0.0001,
      "loss": 7.8283,
      "loss/crossentropy": 1.96769128292799,
      "loss/hidden": 3.621484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21129720862954854,
      "step": 17420
    },
    {
      "epoch": 0.581,
      "grad_norm": 34.0,
      "grad_norm_var": 6.0900390625,
      "learning_rate": 0.0001,
      "loss": 7.9127,
      "loss/crossentropy": 2.0979452088475226,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23280210494995118,
      "step": 17430
    },
    {
      "epoch": 0.5813333333333334,
      "grad_norm": 31.125,
      "grad_norm_var": 3.7671223958333333,
      "learning_rate": 0.0001,
      "loss": 7.9495,
      "loss/crossentropy": 2.3015418693423273,
      "loss/hidden": 3.496875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2063061658293009,
      "step": 17440
    },
    {
      "epoch": 0.5816666666666667,
      "grad_norm": 31.125,
      "grad_norm_var": 8.673958333333333,
      "learning_rate": 0.0001,
      "loss": 7.977,
      "loss/crossentropy": 2.1084218993782997,
      "loss/hidden": 3.688671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2300797041505575,
      "step": 17450
    },
    {
      "epoch": 0.582,
      "grad_norm": 29.875,
      "grad_norm_var": 18.838997395833335,
      "learning_rate": 0.0001,
      "loss": 7.8748,
      "loss/crossentropy": 2.125347241014242,
      "loss/hidden": 3.650390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21882319189608096,
      "step": 17460
    },
    {
      "epoch": 0.5823333333333334,
      "grad_norm": 31.625,
      "grad_norm_var": 13.420247395833334,
      "learning_rate": 0.0001,
      "loss": 7.7885,
      "loss/crossentropy": 1.9236932694911957,
      "loss/hidden": 3.629296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20307795237749815,
      "step": 17470
    },
    {
      "epoch": 0.5826666666666667,
      "grad_norm": 31.625,
      "grad_norm_var": 6.923372395833334,
      "learning_rate": 0.0001,
      "loss": 7.9531,
      "loss/crossentropy": 2.0547634214162827,
      "loss/hidden": 3.689453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20383700206875802,
      "step": 17480
    },
    {
      "epoch": 0.583,
      "grad_norm": 30.625,
      "grad_norm_var": 8.875,
      "learning_rate": 0.0001,
      "loss": 7.8942,
      "loss/crossentropy": 2.1729307577013968,
      "loss/hidden": 3.663671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22479334622621536,
      "step": 17490
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 30.25,
      "grad_norm_var": 5.0056640625,
      "learning_rate": 0.0001,
      "loss": 7.9187,
      "loss/crossentropy": 2.1915037110447884,
      "loss/hidden": 3.710546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22519682794809343,
      "step": 17500
    },
    {
      "epoch": 0.5836666666666667,
      "grad_norm": 35.0,
      "grad_norm_var": 12.376822916666667,
      "learning_rate": 0.0001,
      "loss": 7.8727,
      "loss/crossentropy": 2.2274638898670673,
      "loss/hidden": 3.530078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20867663882672788,
      "step": 17510
    },
    {
      "epoch": 0.584,
      "grad_norm": 31.375,
      "grad_norm_var": 12.6072265625,
      "learning_rate": 0.0001,
      "loss": 7.8598,
      "loss/crossentropy": 1.9983490526676178,
      "loss/hidden": 3.81796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23317093290388585,
      "step": 17520
    },
    {
      "epoch": 0.5843333333333334,
      "grad_norm": 28.625,
      "grad_norm_var": 5.734309895833333,
      "learning_rate": 0.0001,
      "loss": 7.8956,
      "loss/crossentropy": 2.036000092327595,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2117432462051511,
      "step": 17530
    },
    {
      "epoch": 0.5846666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 3.980208333333333,
      "learning_rate": 0.0001,
      "loss": 7.8556,
      "loss/crossentropy": 2.1683146730065346,
      "loss/hidden": 3.63984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21113013792783022,
      "step": 17540
    },
    {
      "epoch": 0.585,
      "grad_norm": 36.5,
      "grad_norm_var": 65.62473958333334,
      "learning_rate": 0.0001,
      "loss": 7.8502,
      "loss/crossentropy": 1.9271365851163864,
      "loss/hidden": 3.673828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21881148554384708,
      "step": 17550
    },
    {
      "epoch": 0.5853333333333334,
      "grad_norm": 30.125,
      "grad_norm_var": 64.79264322916667,
      "learning_rate": 0.0001,
      "loss": 7.853,
      "loss/crossentropy": 2.1277351498603823,
      "loss/hidden": 3.63046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21536952927708625,
      "step": 17560
    },
    {
      "epoch": 0.5856666666666667,
      "grad_norm": 34.25,
      "grad_norm_var": 2.48125,
      "learning_rate": 0.0001,
      "loss": 7.8684,
      "loss/crossentropy": 2.2192533940076826,
      "loss/hidden": 3.625390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24672232531011104,
      "step": 17570
    },
    {
      "epoch": 0.586,
      "grad_norm": 30.5,
      "grad_norm_var": 3.376822916666667,
      "learning_rate": 0.0001,
      "loss": 7.825,
      "loss/crossentropy": 1.9819466196000577,
      "loss/hidden": 3.597265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2152025356888771,
      "step": 17580
    },
    {
      "epoch": 0.5863333333333334,
      "grad_norm": 32.0,
      "grad_norm_var": 3.51015625,
      "learning_rate": 0.0001,
      "loss": 7.7497,
      "loss/crossentropy": 2.1631928592920304,
      "loss/hidden": 3.626171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21683248728513718,
      "step": 17590
    },
    {
      "epoch": 0.5866666666666667,
      "grad_norm": 29.75,
      "grad_norm_var": 5.7322265625,
      "learning_rate": 0.0001,
      "loss": 7.7934,
      "loss/crossentropy": 2.0797213554382323,
      "loss/hidden": 3.641015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21361089181154966,
      "step": 17600
    },
    {
      "epoch": 0.587,
      "grad_norm": 30.75,
      "grad_norm_var": 4.33125,
      "learning_rate": 0.0001,
      "loss": 7.9096,
      "loss/crossentropy": 2.1399587824940682,
      "loss/hidden": 3.652734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22931497786194086,
      "step": 17610
    },
    {
      "epoch": 0.5873333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 2.1080729166666665,
      "learning_rate": 0.0001,
      "loss": 8.0199,
      "loss/crossentropy": 2.082290044426918,
      "loss/hidden": 3.6421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21377197336405515,
      "step": 17620
    },
    {
      "epoch": 0.5876666666666667,
      "grad_norm": 29.0,
      "grad_norm_var": 3.7447916666666665,
      "learning_rate": 0.0001,
      "loss": 7.8002,
      "loss/crossentropy": 1.9901188783347608,
      "loss/hidden": 3.667578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22527266927063466,
      "step": 17630
    },
    {
      "epoch": 0.588,
      "grad_norm": 51.0,
      "grad_norm_var": 32.34557291666667,
      "learning_rate": 0.0001,
      "loss": 7.9691,
      "loss/crossentropy": 2.2055923312902452,
      "loss/hidden": 3.60859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2215042721480131,
      "step": 17640
    },
    {
      "epoch": 0.5883333333333334,
      "grad_norm": 33.0,
      "grad_norm_var": 27.630143229166666,
      "learning_rate": 0.0001,
      "loss": 7.8568,
      "loss/crossentropy": 1.9692361816763877,
      "loss/hidden": 3.622265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20123363118618726,
      "step": 17650
    },
    {
      "epoch": 0.5886666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 2.424934895833333,
      "learning_rate": 0.0001,
      "loss": 7.9636,
      "loss/crossentropy": 2.0752515137195586,
      "loss/hidden": 3.627734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21257804036140443,
      "step": 17660
    },
    {
      "epoch": 0.589,
      "grad_norm": 31.375,
      "grad_norm_var": 3.3559895833333333,
      "learning_rate": 0.0001,
      "loss": 7.8761,
      "loss/crossentropy": 2.0425384148955343,
      "loss/hidden": 3.70078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21111119659617544,
      "step": 17670
    },
    {
      "epoch": 0.5893333333333334,
      "grad_norm": 5301600256.0,
      "grad_norm_var": 1.7566853087264507e+18,
      "learning_rate": 0.0001,
      "loss": 8.0848,
      "loss/crossentropy": 2.2280178025364874,
      "loss/hidden": 3.89609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29019313380122186,
      "step": 17680
    },
    {
      "epoch": 0.5896666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 1.756685307947778e+18,
      "learning_rate": 0.0001,
      "loss": 7.9978,
      "loss/crossentropy": 2.1417148754000666,
      "loss/hidden": 3.7203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2305316347628832,
      "step": 17690
    },
    {
      "epoch": 0.59,
      "grad_norm": 29.0,
      "grad_norm_var": 1.6520182291666667,
      "learning_rate": 0.0001,
      "loss": 7.732,
      "loss/crossentropy": 1.9635935053229332,
      "loss/hidden": 3.571875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19552220217883587,
      "step": 17700
    },
    {
      "epoch": 0.5903333333333334,
      "grad_norm": 31.125,
      "grad_norm_var": 4.158072916666667,
      "learning_rate": 0.0001,
      "loss": 8.101,
      "loss/crossentropy": 1.9116744890809059,
      "loss/hidden": 3.78671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21419992987066508,
      "step": 17710
    },
    {
      "epoch": 0.5906666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 2.2223307291666665,
      "learning_rate": 0.0001,
      "loss": 7.75,
      "loss/crossentropy": 2.117913420498371,
      "loss/hidden": 3.62421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20440428592264653,
      "step": 17720
    },
    {
      "epoch": 0.591,
      "grad_norm": 31.375,
      "grad_norm_var": 4.03125,
      "learning_rate": 0.0001,
      "loss": 7.9153,
      "loss/crossentropy": 2.0854917369782924,
      "loss/hidden": 3.64609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21392401214689016,
      "step": 17730
    },
    {
      "epoch": 0.5913333333333334,
      "grad_norm": 29.5,
      "grad_norm_var": 3.948958333333333,
      "learning_rate": 0.0001,
      "loss": 7.7836,
      "loss/crossentropy": 1.9979670539498329,
      "loss/hidden": 3.59453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20232196077704429,
      "step": 17740
    },
    {
      "epoch": 0.5916666666666667,
      "grad_norm": 28.0,
      "grad_norm_var": 2.9452473958333334,
      "learning_rate": 0.0001,
      "loss": 7.7919,
      "loss/crossentropy": 2.124793681502342,
      "loss/hidden": 3.6234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2240230105817318,
      "step": 17750
    },
    {
      "epoch": 0.592,
      "grad_norm": 30.5,
      "grad_norm_var": 1.1768229166666666,
      "learning_rate": 0.0001,
      "loss": 7.8956,
      "loss/crossentropy": 2.3084448873996735,
      "loss/hidden": 3.575,
      "loss/jsd": 0.0,
      "loss/logits": 0.21302221789956094,
      "step": 17760
    },
    {
      "epoch": 0.5923333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 4.325,
      "learning_rate": 0.0001,
      "loss": 7.7268,
      "loss/crossentropy": 2.060881958901882,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20148423872888088,
      "step": 17770
    },
    {
      "epoch": 0.5926666666666667,
      "grad_norm": 31.875,
      "grad_norm_var": 6.21640625,
      "learning_rate": 0.0001,
      "loss": 7.881,
      "loss/crossentropy": 2.123748776316643,
      "loss/hidden": 3.608984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22054104711860417,
      "step": 17780
    },
    {
      "epoch": 0.593,
      "grad_norm": 59.0,
      "grad_norm_var": 53.02649739583333,
      "learning_rate": 0.0001,
      "loss": 7.8065,
      "loss/crossentropy": 2.0521097406744957,
      "loss/hidden": 3.47421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18986649625003338,
      "step": 17790
    },
    {
      "epoch": 0.5933333333333334,
      "grad_norm": 30.125,
      "grad_norm_var": 50.04479166666667,
      "learning_rate": 0.0001,
      "loss": 7.9947,
      "loss/crossentropy": 1.9684382773935796,
      "loss/hidden": 3.701953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2199052505195141,
      "step": 17800
    },
    {
      "epoch": 0.5936666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 2.84140625,
      "learning_rate": 0.0001,
      "loss": 7.8549,
      "loss/crossentropy": 2.2951119184494018,
      "loss/hidden": 3.68203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23184156119823457,
      "step": 17810
    },
    {
      "epoch": 0.594,
      "grad_norm": 29.5,
      "grad_norm_var": 1.8166015625,
      "learning_rate": 0.0001,
      "loss": 7.9599,
      "loss/crossentropy": 2.1213736176490783,
      "loss/hidden": 3.627734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22608150485903025,
      "step": 17820
    },
    {
      "epoch": 0.5943333333333334,
      "grad_norm": 29.75,
      "grad_norm_var": 2.29140625,
      "learning_rate": 0.0001,
      "loss": 7.9982,
      "loss/crossentropy": 2.08011159747839,
      "loss/hidden": 3.68203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21864136941730977,
      "step": 17830
    },
    {
      "epoch": 0.5946666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 2.092643229166667,
      "learning_rate": 0.0001,
      "loss": 7.9028,
      "loss/crossentropy": 2.084545207023621,
      "loss/hidden": 3.675390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2244249342009425,
      "step": 17840
    },
    {
      "epoch": 0.595,
      "grad_norm": 31.375,
      "grad_norm_var": 2.0020182291666666,
      "learning_rate": 0.0001,
      "loss": 7.9467,
      "loss/crossentropy": 1.9666382275521754,
      "loss/hidden": 3.605078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21182227209210397,
      "step": 17850
    },
    {
      "epoch": 0.5953333333333334,
      "grad_norm": 29.25,
      "grad_norm_var": 1.9979166666666666,
      "learning_rate": 0.0001,
      "loss": 7.7981,
      "loss/crossentropy": 2.0992372572422027,
      "loss/hidden": 3.65078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20616454482078553,
      "step": 17860
    },
    {
      "epoch": 0.5956666666666667,
      "grad_norm": 31.5,
      "grad_norm_var": 3.7270833333333333,
      "learning_rate": 0.0001,
      "loss": 7.8429,
      "loss/crossentropy": 2.115238733589649,
      "loss/hidden": 3.659765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22112161125987767,
      "step": 17870
    },
    {
      "epoch": 0.596,
      "grad_norm": 38.5,
      "grad_norm_var": 49.32076822916667,
      "learning_rate": 0.0001,
      "loss": 7.9198,
      "loss/crossentropy": 2.004359558224678,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20139172691851853,
      "step": 17880
    },
    {
      "epoch": 0.5963333333333334,
      "grad_norm": 62.75,
      "grad_norm_var": 542.1577473958333,
      "learning_rate": 0.0001,
      "loss": 8.0141,
      "loss/crossentropy": 2.0738891914486883,
      "loss/hidden": 3.722265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27466350272297857,
      "step": 17890
    },
    {
      "epoch": 0.5966666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 123.88170572916667,
      "learning_rate": 0.0001,
      "loss": 7.773,
      "loss/crossentropy": 2.1576938211917875,
      "loss/hidden": 3.61015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21197507828474044,
      "step": 17900
    },
    {
      "epoch": 0.597,
      "grad_norm": 29.875,
      "grad_norm_var": 4.25625,
      "learning_rate": 0.0001,
      "loss": 7.7789,
      "loss/crossentropy": 2.0792277440428735,
      "loss/hidden": 3.653125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21021516602486373,
      "step": 17910
    },
    {
      "epoch": 0.5973333333333334,
      "grad_norm": 28.5,
      "grad_norm_var": 4.112955729166667,
      "learning_rate": 0.0001,
      "loss": 7.791,
      "loss/crossentropy": 2.0338504150509835,
      "loss/hidden": 3.58515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21274630688130855,
      "step": 17920
    },
    {
      "epoch": 0.5976666666666667,
      "grad_norm": 34.0,
      "grad_norm_var": 4.971875,
      "learning_rate": 0.0001,
      "loss": 7.7827,
      "loss/crossentropy": 1.9480732060968875,
      "loss/hidden": 3.644921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1969135446473956,
      "step": 17930
    },
    {
      "epoch": 0.598,
      "grad_norm": 33.25,
      "grad_norm_var": 2.4208333333333334,
      "learning_rate": 0.0001,
      "loss": 7.7746,
      "loss/crossentropy": 2.045719124376774,
      "loss/hidden": 3.585546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2005929106846452,
      "step": 17940
    },
    {
      "epoch": 0.5983333333333334,
      "grad_norm": 33.75,
      "grad_norm_var": 7.9587890625,
      "learning_rate": 0.0001,
      "loss": 7.8875,
      "loss/crossentropy": 2.07333282828331,
      "loss/hidden": 3.62890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20832881294190883,
      "step": 17950
    },
    {
      "epoch": 0.5986666666666667,
      "grad_norm": 33.75,
      "grad_norm_var": 8.305989583333334,
      "learning_rate": 0.0001,
      "loss": 7.7515,
      "loss/crossentropy": 2.0196738630533217,
      "loss/hidden": 3.61015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21534995995461942,
      "step": 17960
    },
    {
      "epoch": 0.599,
      "grad_norm": 29.125,
      "grad_norm_var": 10.612434895833333,
      "learning_rate": 0.0001,
      "loss": 7.8834,
      "loss/crossentropy": 2.0255559869110584,
      "loss/hidden": 3.601171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19980104472488164,
      "step": 17970
    },
    {
      "epoch": 0.5993333333333334,
      "grad_norm": 33.0,
      "grad_norm_var": 5.305989583333333,
      "learning_rate": 0.0001,
      "loss": 7.8593,
      "loss/crossentropy": 2.0782414257526396,
      "loss/hidden": 3.631640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2156868301331997,
      "step": 17980
    },
    {
      "epoch": 0.5996666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 3.23125,
      "learning_rate": 0.0001,
      "loss": 7.8168,
      "loss/crossentropy": 2.1622331708669664,
      "loss/hidden": 3.577734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2100482653826475,
      "step": 17990
    },
    {
      "epoch": 0.6,
      "grad_norm": 30.375,
      "grad_norm_var": 5.889322916666667,
      "learning_rate": 0.0001,
      "loss": 7.9181,
      "loss/crossentropy": 2.0450053200125695,
      "loss/hidden": 3.779296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22763790674507617,
      "step": 18000
    },
    {
      "epoch": 0.6003333333333334,
      "grad_norm": 30.625,
      "grad_norm_var": 4.785416666666666,
      "learning_rate": 0.0001,
      "loss": 7.7476,
      "loss/crossentropy": 2.1718004338443277,
      "loss/hidden": 3.62421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21642480613663792,
      "step": 18010
    },
    {
      "epoch": 0.6006666666666667,
      "grad_norm": 38.0,
      "grad_norm_var": 5.748372395833333,
      "learning_rate": 0.0001,
      "loss": 8.012,
      "loss/crossentropy": 2.207152932882309,
      "loss/hidden": 3.66328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24362048767507077,
      "step": 18020
    },
    {
      "epoch": 0.601,
      "grad_norm": 33.0,
      "grad_norm_var": 8.595768229166667,
      "learning_rate": 0.0001,
      "loss": 7.9312,
      "loss/crossentropy": 2.0700930416584016,
      "loss/hidden": 3.679296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20959441419690847,
      "step": 18030
    },
    {
      "epoch": 0.6013333333333334,
      "grad_norm": 36.75,
      "grad_norm_var": 6.439322916666667,
      "learning_rate": 0.0001,
      "loss": 7.8615,
      "loss/crossentropy": 1.945305197685957,
      "loss/hidden": 3.768359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23298689387738705,
      "step": 18040
    },
    {
      "epoch": 0.6016666666666667,
      "grad_norm": 33.5,
      "grad_norm_var": 4.405208333333333,
      "learning_rate": 0.0001,
      "loss": 7.7177,
      "loss/crossentropy": 2.1207897052168847,
      "loss/hidden": 3.72421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21883321572095155,
      "step": 18050
    },
    {
      "epoch": 0.602,
      "grad_norm": 30.125,
      "grad_norm_var": 3.4468098958333333,
      "learning_rate": 0.0001,
      "loss": 7.8522,
      "loss/crossentropy": 1.9687151461839676,
      "loss/hidden": 3.64453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21371175833046435,
      "step": 18060
    },
    {
      "epoch": 0.6023333333333334,
      "grad_norm": 30.375,
      "grad_norm_var": 3.4989583333333334,
      "learning_rate": 0.0001,
      "loss": 7.7965,
      "loss/crossentropy": 2.0616400502622128,
      "loss/hidden": 3.56953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19918912472203373,
      "step": 18070
    },
    {
      "epoch": 0.6026666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 2.894791666666667,
      "learning_rate": 0.0001,
      "loss": 7.8959,
      "loss/crossentropy": 2.110419492423534,
      "loss/hidden": 3.580859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21065182648599148,
      "step": 18080
    },
    {
      "epoch": 0.603,
      "grad_norm": 37.75,
      "grad_norm_var": 30.475455729166665,
      "learning_rate": 0.0001,
      "loss": 7.8809,
      "loss/crossentropy": 2.0502669103443623,
      "loss/hidden": 3.59609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2201010322198272,
      "step": 18090
    },
    {
      "epoch": 0.6033333333333334,
      "grad_norm": 31.75,
      "grad_norm_var": 7.795572916666667,
      "learning_rate": 0.0001,
      "loss": 7.8007,
      "loss/crossentropy": 1.998288343846798,
      "loss/hidden": 3.690234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20705017000436782,
      "step": 18100
    },
    {
      "epoch": 0.6036666666666667,
      "grad_norm": 29.125,
      "grad_norm_var": 4.1125,
      "learning_rate": 0.0001,
      "loss": 7.919,
      "loss/crossentropy": 2.1517566978931426,
      "loss/hidden": 3.579296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22426084131002427,
      "step": 18110
    },
    {
      "epoch": 0.604,
      "grad_norm": 30.0,
      "grad_norm_var": 4.998893229166667,
      "learning_rate": 0.0001,
      "loss": 7.7191,
      "loss/crossentropy": 2.1819751486182213,
      "loss/hidden": 3.59296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2131780631840229,
      "step": 18120
    },
    {
      "epoch": 0.6043333333333333,
      "grad_norm": 28.125,
      "grad_norm_var": 3.2264973958333334,
      "learning_rate": 0.0001,
      "loss": 7.8286,
      "loss/crossentropy": 2.0302142813801765,
      "loss/hidden": 3.49140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21191238649189473,
      "step": 18130
    },
    {
      "epoch": 0.6046666666666667,
      "grad_norm": 27.75,
      "grad_norm_var": 4.076041666666667,
      "learning_rate": 0.0001,
      "loss": 7.8356,
      "loss/crossentropy": 2.1582538709044456,
      "loss/hidden": 3.681640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22549642771482467,
      "step": 18140
    },
    {
      "epoch": 0.605,
      "grad_norm": 32.25,
      "grad_norm_var": 3.0893229166666667,
      "learning_rate": 0.0001,
      "loss": 7.9474,
      "loss/crossentropy": 1.9815901264548301,
      "loss/hidden": 3.696875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20591741409152747,
      "step": 18150
    },
    {
      "epoch": 0.6053333333333333,
      "grad_norm": 29.75,
      "grad_norm_var": 5.76015625,
      "learning_rate": 0.0001,
      "loss": 7.8622,
      "loss/crossentropy": 2.011575572192669,
      "loss/hidden": 3.656640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21709777507930994,
      "step": 18160
    },
    {
      "epoch": 0.6056666666666667,
      "grad_norm": 31.125,
      "grad_norm_var": 1.6330729166666667,
      "learning_rate": 0.0001,
      "loss": 7.8002,
      "loss/crossentropy": 1.9985271662473678,
      "loss/hidden": 3.662890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2164109718054533,
      "step": 18170
    },
    {
      "epoch": 0.606,
      "grad_norm": 28.875,
      "grad_norm_var": 2.1587890625,
      "learning_rate": 0.0001,
      "loss": 7.8748,
      "loss/crossentropy": 1.9468450605869294,
      "loss/hidden": 3.795703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22511965408921242,
      "step": 18180
    },
    {
      "epoch": 0.6063333333333333,
      "grad_norm": 31.875,
      "grad_norm_var": 8.801041666666666,
      "learning_rate": 0.0001,
      "loss": 7.7904,
      "loss/crossentropy": 1.8904692113399506,
      "loss/hidden": 3.530078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19247866850346326,
      "step": 18190
    },
    {
      "epoch": 0.6066666666666667,
      "grad_norm": 30.125,
      "grad_norm_var": 1.32265625,
      "learning_rate": 0.0001,
      "loss": 7.9876,
      "loss/crossentropy": 2.1818495839834213,
      "loss/hidden": 3.655859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2132304223254323,
      "step": 18200
    },
    {
      "epoch": 0.607,
      "grad_norm": 29.125,
      "grad_norm_var": 1.7712890625,
      "learning_rate": 0.0001,
      "loss": 7.7898,
      "loss/crossentropy": 2.0314568877220154,
      "loss/hidden": 3.555859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20160603299736976,
      "step": 18210
    },
    {
      "epoch": 0.6073333333333333,
      "grad_norm": 29.0,
      "grad_norm_var": 6.9947265625,
      "learning_rate": 0.0001,
      "loss": 7.7958,
      "loss/crossentropy": 2.127374881505966,
      "loss/hidden": 3.6359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2240319259464741,
      "step": 18220
    },
    {
      "epoch": 0.6076666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 7.166080729166667,
      "learning_rate": 0.0001,
      "loss": 7.8324,
      "loss/crossentropy": 2.0251319468021394,
      "loss/hidden": 3.702734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23137976359575987,
      "step": 18230
    },
    {
      "epoch": 0.608,
      "grad_norm": 34.75,
      "grad_norm_var": 3.998893229166667,
      "learning_rate": 0.0001,
      "loss": 7.9401,
      "loss/crossentropy": 2.006920612603426,
      "loss/hidden": 3.603125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20304168649017812,
      "step": 18240
    },
    {
      "epoch": 0.6083333333333333,
      "grad_norm": 32.5,
      "grad_norm_var": 2.3916666666666666,
      "learning_rate": 0.0001,
      "loss": 7.7267,
      "loss/crossentropy": 2.189460189640522,
      "loss/hidden": 3.564453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20912937633693218,
      "step": 18250
    },
    {
      "epoch": 0.6086666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 2.653059895833333,
      "learning_rate": 0.0001,
      "loss": 7.8839,
      "loss/crossentropy": 2.109463243186474,
      "loss/hidden": 3.65,
      "loss/jsd": 0.0,
      "loss/logits": 0.22287122681736946,
      "step": 18260
    },
    {
      "epoch": 0.609,
      "grad_norm": 29.625,
      "grad_norm_var": 5.537434895833333,
      "learning_rate": 0.0001,
      "loss": 7.9143,
      "loss/crossentropy": 1.9888273879885674,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19882734641432762,
      "step": 18270
    },
    {
      "epoch": 0.6093333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 6.3697265625,
      "learning_rate": 0.0001,
      "loss": 7.8695,
      "loss/crossentropy": 2.1051917299628258,
      "loss/hidden": 3.73203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22681960612535476,
      "step": 18280
    },
    {
      "epoch": 0.6096666666666667,
      "grad_norm": 30.125,
      "grad_norm_var": 4.312239583333334,
      "learning_rate": 0.0001,
      "loss": 7.7899,
      "loss/crossentropy": 1.9936149284243583,
      "loss/hidden": 3.71953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22636721413582564,
      "step": 18290
    },
    {
      "epoch": 0.61,
      "grad_norm": 32.75,
      "grad_norm_var": 3.8655598958333335,
      "learning_rate": 0.0001,
      "loss": 7.9113,
      "loss/crossentropy": 2.1669924929738045,
      "loss/hidden": 3.64375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21989998165518046,
      "step": 18300
    },
    {
      "epoch": 0.6103333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 4.784830729166667,
      "learning_rate": 0.0001,
      "loss": 7.8107,
      "loss/crossentropy": 2.1663272455334663,
      "loss/hidden": 3.603125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22850660514086485,
      "step": 18310
    },
    {
      "epoch": 0.6106666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 15.930989583333334,
      "learning_rate": 0.0001,
      "loss": 7.921,
      "loss/crossentropy": 2.106405158340931,
      "loss/hidden": 3.580859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22974986005574466,
      "step": 18320
    },
    {
      "epoch": 0.611,
      "grad_norm": 31.25,
      "grad_norm_var": 18.299739583333334,
      "learning_rate": 0.0001,
      "loss": 7.8336,
      "loss/crossentropy": 2.130492168664932,
      "loss/hidden": 3.606640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2170414287596941,
      "step": 18330
    },
    {
      "epoch": 0.6113333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 7.1650390625,
      "learning_rate": 0.0001,
      "loss": 7.8573,
      "loss/crossentropy": 2.3027665317058563,
      "loss/hidden": 3.6,
      "loss/jsd": 0.0,
      "loss/logits": 0.22886360697448255,
      "step": 18340
    },
    {
      "epoch": 0.6116666666666667,
      "grad_norm": 31.875,
      "grad_norm_var": 6.0697265625,
      "learning_rate": 0.0001,
      "loss": 7.7478,
      "loss/crossentropy": 2.0985746681690216,
      "loss/hidden": 3.57734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20908834878355265,
      "step": 18350
    },
    {
      "epoch": 0.612,
      "grad_norm": 30.5,
      "grad_norm_var": 6.792643229166667,
      "learning_rate": 0.0001,
      "loss": 7.8184,
      "loss/crossentropy": 2.152451690286398,
      "loss/hidden": 3.6,
      "loss/jsd": 0.0,
      "loss/logits": 0.21251746444031597,
      "step": 18360
    },
    {
      "epoch": 0.6123333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 2.3962890625,
      "learning_rate": 0.0001,
      "loss": 7.8537,
      "loss/crossentropy": 2.0875338673591615,
      "loss/hidden": 3.631640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23585428856313229,
      "step": 18370
    },
    {
      "epoch": 0.6126666666666667,
      "grad_norm": 29.75,
      "grad_norm_var": 4.625,
      "learning_rate": 0.0001,
      "loss": 7.9296,
      "loss/crossentropy": 2.0466977350413798,
      "loss/hidden": 3.60859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2116424733772874,
      "step": 18380
    },
    {
      "epoch": 0.613,
      "grad_norm": 29.875,
      "grad_norm_var": 2.3478515625,
      "learning_rate": 0.0001,
      "loss": 7.9076,
      "loss/crossentropy": 2.0156113907694815,
      "loss/hidden": 3.674609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21385385412722827,
      "step": 18390
    },
    {
      "epoch": 0.6133333333333333,
      "grad_norm": 31.0,
      "grad_norm_var": 3.7384765625,
      "learning_rate": 0.0001,
      "loss": 7.9007,
      "loss/crossentropy": 2.1177249431610106,
      "loss/hidden": 3.64453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2171054555103183,
      "step": 18400
    },
    {
      "epoch": 0.6136666666666667,
      "grad_norm": 30.875,
      "grad_norm_var": 5.0056640625,
      "learning_rate": 0.0001,
      "loss": 7.8653,
      "loss/crossentropy": 2.0109619170427324,
      "loss/hidden": 3.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24297788869589568,
      "step": 18410
    },
    {
      "epoch": 0.614,
      "grad_norm": 29.875,
      "grad_norm_var": 6.345247395833334,
      "learning_rate": 0.0001,
      "loss": 7.8787,
      "loss/crossentropy": 2.008924402296543,
      "loss/hidden": 3.815625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23545185066759586,
      "step": 18420
    },
    {
      "epoch": 0.6143333333333333,
      "grad_norm": 31.875,
      "grad_norm_var": 1.9572265625,
      "learning_rate": 0.0001,
      "loss": 7.7924,
      "loss/crossentropy": 2.1681634426116942,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2179112009704113,
      "step": 18430
    },
    {
      "epoch": 0.6146666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 2.56015625,
      "learning_rate": 0.0001,
      "loss": 7.8609,
      "loss/crossentropy": 2.100195789337158,
      "loss/hidden": 3.582421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21292860489338636,
      "step": 18440
    },
    {
      "epoch": 0.615,
      "grad_norm": 30.5,
      "grad_norm_var": 1.2983723958333333,
      "learning_rate": 0.0001,
      "loss": 7.967,
      "loss/crossentropy": 2.2022788748145103,
      "loss/hidden": 3.609765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2205308698117733,
      "step": 18450
    },
    {
      "epoch": 0.6153333333333333,
      "grad_norm": 39.25,
      "grad_norm_var": 5.6375,
      "learning_rate": 0.0001,
      "loss": 7.914,
      "loss/crossentropy": 2.1412271529436113,
      "loss/hidden": 3.605859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21023106891661883,
      "step": 18460
    },
    {
      "epoch": 0.6156666666666667,
      "grad_norm": 31.0,
      "grad_norm_var": 3.313593764281145e+18,
      "learning_rate": 0.0001,
      "loss": 7.8255,
      "loss/crossentropy": 2.116056500375271,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22026809379458429,
      "step": 18470
    },
    {
      "epoch": 0.616,
      "grad_norm": 34.5,
      "grad_norm_var": 3.3135937641066967e+18,
      "learning_rate": 0.0001,
      "loss": 7.8251,
      "loss/crossentropy": 2.1441701896488667,
      "loss/hidden": 3.804296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23796399366110563,
      "step": 18480
    },
    {
      "epoch": 0.6163333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 3.0306640625,
      "learning_rate": 0.0001,
      "loss": 7.8743,
      "loss/crossentropy": 2.05239050835371,
      "loss/hidden": 3.64140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20417920276522636,
      "step": 18490
    },
    {
      "epoch": 0.6166666666666667,
      "grad_norm": 29.75,
      "grad_norm_var": 7.375,
      "learning_rate": 0.0001,
      "loss": 7.8488,
      "loss/crossentropy": 1.98827982544899,
      "loss/hidden": 3.65546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21382159925997257,
      "step": 18500
    },
    {
      "epoch": 0.617,
      "grad_norm": 31.125,
      "grad_norm_var": 9.1916015625,
      "learning_rate": 0.0001,
      "loss": 7.9309,
      "loss/crossentropy": 2.108893929421902,
      "loss/hidden": 3.49921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2015895338729024,
      "step": 18510
    },
    {
      "epoch": 0.6173333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 4.250455729166666,
      "learning_rate": 0.0001,
      "loss": 7.8394,
      "loss/crossentropy": 2.2074019432067873,
      "loss/hidden": 3.61875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21143595930188894,
      "step": 18520
    },
    {
      "epoch": 0.6176666666666667,
      "grad_norm": 30.5,
      "grad_norm_var": 3.97265625,
      "learning_rate": 0.0001,
      "loss": 7.8296,
      "loss/crossentropy": 2.0721921652555464,
      "loss/hidden": 3.702734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23150747194886206,
      "step": 18530
    },
    {
      "epoch": 0.618,
      "grad_norm": 32.5,
      "grad_norm_var": 3.901497395833333,
      "learning_rate": 0.0001,
      "loss": 7.8179,
      "loss/crossentropy": 2.12041699886322,
      "loss/hidden": 3.6109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20933685936033725,
      "step": 18540
    },
    {
      "epoch": 0.6183333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 22.773893229166667,
      "learning_rate": 0.0001,
      "loss": 7.8798,
      "loss/crossentropy": 2.073936428129673,
      "loss/hidden": 3.55625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21363019309937953,
      "step": 18550
    },
    {
      "epoch": 0.6186666666666667,
      "grad_norm": 31.375,
      "grad_norm_var": 21.6416015625,
      "learning_rate": 0.0001,
      "loss": 7.7396,
      "loss/crossentropy": 1.969584984332323,
      "loss/hidden": 3.607421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20250753909349442,
      "step": 18560
    },
    {
      "epoch": 0.619,
      "grad_norm": 36.5,
      "grad_norm_var": 3.5582682291666665,
      "learning_rate": 0.0001,
      "loss": 7.881,
      "loss/crossentropy": 2.3890004098415374,
      "loss/hidden": 3.58359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21717921365052462,
      "step": 18570
    },
    {
      "epoch": 0.6193333333333333,
      "grad_norm": 31.875,
      "grad_norm_var": 5.0962890625,
      "learning_rate": 0.0001,
      "loss": 7.8276,
      "loss/crossentropy": 1.9156524941325188,
      "loss/hidden": 3.602734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22258005812764167,
      "step": 18580
    },
    {
      "epoch": 0.6196666666666667,
      "grad_norm": 34.25,
      "grad_norm_var": 3.2916015625,
      "learning_rate": 0.0001,
      "loss": 7.8671,
      "loss/crossentropy": 2.1052445240318773,
      "loss/hidden": 3.541015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20677947774529457,
      "step": 18590
    },
    {
      "epoch": 0.62,
      "grad_norm": 29.25,
      "grad_norm_var": 4.991080729166667,
      "learning_rate": 0.0001,
      "loss": 7.8464,
      "loss/crossentropy": 1.9568229861557485,
      "loss/hidden": 3.6140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22466170443221928,
      "step": 18600
    },
    {
      "epoch": 0.6203333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 3.1832682291666665,
      "learning_rate": 0.0001,
      "loss": 7.8225,
      "loss/crossentropy": 2.082220788300037,
      "loss/hidden": 3.5328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20434877574443816,
      "step": 18610
    },
    {
      "epoch": 0.6206666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 11.320833333333333,
      "learning_rate": 0.0001,
      "loss": 7.9303,
      "loss/crossentropy": 2.120234587043524,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23275276124477387,
      "step": 18620
    },
    {
      "epoch": 0.621,
      "grad_norm": 29.375,
      "grad_norm_var": 2.448372395833333,
      "learning_rate": 0.0001,
      "loss": 7.8128,
      "loss/crossentropy": 2.058797413110733,
      "loss/hidden": 3.676171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2265950959175825,
      "step": 18630
    },
    {
      "epoch": 0.6213333333333333,
      "grad_norm": 29.5,
      "grad_norm_var": 9.9197265625,
      "learning_rate": 0.0001,
      "loss": 7.8673,
      "loss/crossentropy": 1.9986446030437945,
      "loss/hidden": 3.60078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19868890419602395,
      "step": 18640
    },
    {
      "epoch": 0.6216666666666667,
      "grad_norm": 33.0,
      "grad_norm_var": 2.082747395833333,
      "learning_rate": 0.0001,
      "loss": 7.9691,
      "loss/crossentropy": 2.2711413890123366,
      "loss/hidden": 3.621875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22637809179723262,
      "step": 18650
    },
    {
      "epoch": 0.622,
      "grad_norm": 29.0,
      "grad_norm_var": 3.0853515625,
      "learning_rate": 0.0001,
      "loss": 7.9306,
      "loss/crossentropy": 2.130834940075874,
      "loss/hidden": 3.587109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21620727181434632,
      "step": 18660
    },
    {
      "epoch": 0.6223333333333333,
      "grad_norm": 29.0,
      "grad_norm_var": 4.4884765625,
      "learning_rate": 0.0001,
      "loss": 7.9184,
      "loss/crossentropy": 2.132387759536505,
      "loss/hidden": 3.719921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2213591465726495,
      "step": 18670
    },
    {
      "epoch": 0.6226666666666667,
      "grad_norm": 37.5,
      "grad_norm_var": 5.250455729166666,
      "learning_rate": 0.0001,
      "loss": 7.8612,
      "loss/crossentropy": 2.172727197408676,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21677472554147242,
      "step": 18680
    },
    {
      "epoch": 0.623,
      "grad_norm": 32.75,
      "grad_norm_var": 5.864583333333333,
      "learning_rate": 0.0001,
      "loss": 7.8139,
      "loss/crossentropy": 2.1482373237609864,
      "loss/hidden": 3.638671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22568456567823886,
      "step": 18690
    },
    {
      "epoch": 0.6233333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 9.995768229166666,
      "learning_rate": 0.0001,
      "loss": 7.667,
      "loss/crossentropy": 2.1058941036462784,
      "loss/hidden": 3.533203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2003629505634308,
      "step": 18700
    },
    {
      "epoch": 0.6236666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 3.0462890625,
      "learning_rate": 0.0001,
      "loss": 7.8472,
      "loss/crossentropy": 2.0365977115929126,
      "loss/hidden": 3.583984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21015565544366838,
      "step": 18710
    },
    {
      "epoch": 0.624,
      "grad_norm": 31.125,
      "grad_norm_var": 4.335416666666666,
      "learning_rate": 0.0001,
      "loss": 7.7206,
      "loss/crossentropy": 2.099413389712572,
      "loss/hidden": 3.494921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20410673916339875,
      "step": 18720
    },
    {
      "epoch": 0.6243333333333333,
      "grad_norm": 27.875,
      "grad_norm_var": 11.883072916666666,
      "learning_rate": 0.0001,
      "loss": 7.9741,
      "loss/crossentropy": 2.0666474759578706,
      "loss/hidden": 3.708984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21149700321257114,
      "step": 18730
    },
    {
      "epoch": 0.6246666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 8.562239583333334,
      "learning_rate": 0.0001,
      "loss": 7.8691,
      "loss/crossentropy": 2.0636663090437652,
      "loss/hidden": 3.5921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21715150568634273,
      "step": 18740
    },
    {
      "epoch": 0.625,
      "grad_norm": 37.75,
      "grad_norm_var": 8.626822916666667,
      "learning_rate": 0.0001,
      "loss": 7.7649,
      "loss/crossentropy": 2.0067582026124002,
      "loss/hidden": 3.5578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.204201880376786,
      "step": 18750
    },
    {
      "epoch": 0.6253333333333333,
      "grad_norm": 31.75,
      "grad_norm_var": 9.3634765625,
      "learning_rate": 0.0001,
      "loss": 7.8405,
      "loss/crossentropy": 2.0874268427491187,
      "loss/hidden": 3.680859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2324770163744688,
      "step": 18760
    },
    {
      "epoch": 0.6256666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 2.8872395833333333,
      "learning_rate": 0.0001,
      "loss": 7.8715,
      "loss/crossentropy": 1.892872792482376,
      "loss/hidden": 3.663671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21375333461910487,
      "step": 18770
    },
    {
      "epoch": 0.626,
      "grad_norm": 30.625,
      "grad_norm_var": 3.6372395833333333,
      "learning_rate": 0.0001,
      "loss": 7.9126,
      "loss/crossentropy": 2.181600275635719,
      "loss/hidden": 3.6828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23229926731437445,
      "step": 18780
    },
    {
      "epoch": 0.6263333333333333,
      "grad_norm": 31.375,
      "grad_norm_var": 532.3809895833333,
      "learning_rate": 0.0001,
      "loss": 7.8422,
      "loss/crossentropy": 2.1315030232071877,
      "loss/hidden": 3.515234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20269421245902777,
      "step": 18790
    },
    {
      "epoch": 0.6266666666666667,
      "grad_norm": 31.125,
      "grad_norm_var": 24.878125,
      "learning_rate": 0.0001,
      "loss": 7.9348,
      "loss/crossentropy": 2.173051218688488,
      "loss/hidden": 3.5890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2082651512697339,
      "step": 18800
    },
    {
      "epoch": 0.627,
      "grad_norm": 30.375,
      "grad_norm_var": 3.22265625,
      "learning_rate": 0.0001,
      "loss": 7.9028,
      "loss/crossentropy": 2.1568052619695663,
      "loss/hidden": 3.58828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21820257026702167,
      "step": 18810
    },
    {
      "epoch": 0.6273333333333333,
      "grad_norm": 31.25,
      "grad_norm_var": 3.409309895833333,
      "learning_rate": 0.0001,
      "loss": 7.9375,
      "loss/crossentropy": 1.8293808348476888,
      "loss/hidden": 3.6078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19814650276675821,
      "step": 18820
    },
    {
      "epoch": 0.6276666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 21.13125,
      "learning_rate": 0.0001,
      "loss": 7.9111,
      "loss/crossentropy": 2.19702318161726,
      "loss/hidden": 3.63125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21540935784578324,
      "step": 18830
    },
    {
      "epoch": 0.628,
      "grad_norm": 32.25,
      "grad_norm_var": 20.922916666666666,
      "learning_rate": 0.0001,
      "loss": 7.8251,
      "loss/crossentropy": 2.1570638747885824,
      "loss/hidden": 3.54609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20867985542863607,
      "step": 18840
    },
    {
      "epoch": 0.6283333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 4.72890625,
      "learning_rate": 0.0001,
      "loss": 7.8015,
      "loss/crossentropy": 2.1077527910470963,
      "loss/hidden": 3.674609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22238324768841267,
      "step": 18850
    },
    {
      "epoch": 0.6286666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 12.74765625,
      "learning_rate": 0.0001,
      "loss": 7.8461,
      "loss/crossentropy": 2.0374200642108917,
      "loss/hidden": 3.715234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21136217713356018,
      "step": 18860
    },
    {
      "epoch": 0.629,
      "grad_norm": 30.625,
      "grad_norm_var": 6.53515625,
      "learning_rate": 0.0001,
      "loss": 7.9069,
      "loss/crossentropy": 2.0224805563688277,
      "loss/hidden": 3.51015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2152063086628914,
      "step": 18870
    },
    {
      "epoch": 0.6293333333333333,
      "grad_norm": 37.0,
      "grad_norm_var": 10.820572916666666,
      "learning_rate": 0.0001,
      "loss": 7.9014,
      "loss/crossentropy": 2.063296413421631,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20050969813019037,
      "step": 18880
    },
    {
      "epoch": 0.6296666666666667,
      "grad_norm": 31.625,
      "grad_norm_var": 7.643684895833333,
      "learning_rate": 0.0001,
      "loss": 7.8825,
      "loss/crossentropy": 2.2169769048690795,
      "loss/hidden": 3.5921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21663882099092008,
      "step": 18890
    },
    {
      "epoch": 0.63,
      "grad_norm": 29.5,
      "grad_norm_var": 5.8775390625,
      "learning_rate": 0.0001,
      "loss": 7.8653,
      "loss/crossentropy": 2.0760796412825586,
      "loss/hidden": 3.532421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1870915897190571,
      "step": 18900
    },
    {
      "epoch": 0.6303333333333333,
      "grad_norm": 29.75,
      "grad_norm_var": 1.6059895833333333,
      "learning_rate": 0.0001,
      "loss": 7.9256,
      "loss/crossentropy": 2.2268298670649527,
      "loss/hidden": 3.6609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21423916518688202,
      "step": 18910
    },
    {
      "epoch": 0.6306666666666667,
      "grad_norm": 33.75,
      "grad_norm_var": 6.870572916666666,
      "learning_rate": 0.0001,
      "loss": 7.9247,
      "loss/crossentropy": 2.192274183034897,
      "loss/hidden": 3.730078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2382037065923214,
      "step": 18920
    },
    {
      "epoch": 0.631,
      "grad_norm": 34.5,
      "grad_norm_var": 4.92265625,
      "learning_rate": 0.0001,
      "loss": 7.9498,
      "loss/crossentropy": 2.1766092889010906,
      "loss/hidden": 3.615234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20994122456759215,
      "step": 18930
    },
    {
      "epoch": 0.6313333333333333,
      "grad_norm": 31.25,
      "grad_norm_var": 3.9643229166666667,
      "learning_rate": 0.0001,
      "loss": 7.8339,
      "loss/crossentropy": 2.1794259466230868,
      "loss/hidden": 3.58125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21326899696141483,
      "step": 18940
    },
    {
      "epoch": 0.6316666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 4.389518229166667,
      "learning_rate": 0.0001,
      "loss": 7.8916,
      "loss/crossentropy": 2.1451626420021057,
      "loss/hidden": 3.74765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22022609002888202,
      "step": 18950
    },
    {
      "epoch": 0.632,
      "grad_norm": 28.5,
      "grad_norm_var": 5.9275390625,
      "learning_rate": 0.0001,
      "loss": 7.885,
      "loss/crossentropy": 2.143310196697712,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21481310818344354,
      "step": 18960
    },
    {
      "epoch": 0.6323333333333333,
      "grad_norm": 33.5,
      "grad_norm_var": 111.21041666666666,
      "learning_rate": 0.0001,
      "loss": 7.8308,
      "loss/crossentropy": 2.0815651670098303,
      "loss/hidden": 3.738671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2265876606106758,
      "step": 18970
    },
    {
      "epoch": 0.6326666666666667,
      "grad_norm": 81.0,
      "grad_norm_var": 249.68515625,
      "learning_rate": 0.0001,
      "loss": 7.8743,
      "loss/crossentropy": 2.1671969212591646,
      "loss/hidden": 3.51796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20081726741045713,
      "step": 18980
    },
    {
      "epoch": 0.633,
      "grad_norm": 29.25,
      "grad_norm_var": 167.84368489583332,
      "learning_rate": 0.0001,
      "loss": 7.7065,
      "loss/crossentropy": 2.221551278233528,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20150368921458722,
      "step": 18990
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 31.75,
      "grad_norm_var": 2.2393229166666666,
      "learning_rate": 0.0001,
      "loss": 7.8872,
      "loss/crossentropy": 2.1742024421691895,
      "loss/hidden": 3.70078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2297104850411415,
      "step": 19000
    },
    {
      "epoch": 0.6336666666666667,
      "grad_norm": 30.125,
      "grad_norm_var": 1.6155598958333333,
      "learning_rate": 0.0001,
      "loss": 7.8937,
      "loss/crossentropy": 2.013886445760727,
      "loss/hidden": 3.634765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2087485622614622,
      "step": 19010
    },
    {
      "epoch": 0.634,
      "grad_norm": 29.25,
      "grad_norm_var": 3.457747395833333,
      "learning_rate": 0.0001,
      "loss": 7.8267,
      "loss/crossentropy": 2.125851184129715,
      "loss/hidden": 3.680078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2237798146903515,
      "step": 19020
    },
    {
      "epoch": 0.6343333333333333,
      "grad_norm": 30.625,
      "grad_norm_var": 1.234375,
      "learning_rate": 0.0001,
      "loss": 7.8299,
      "loss/crossentropy": 2.154933376610279,
      "loss/hidden": 3.540625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19935899265110493,
      "step": 19030
    },
    {
      "epoch": 0.6346666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 1.6129557291666667,
      "learning_rate": 0.0001,
      "loss": 7.8469,
      "loss/crossentropy": 2.093220832943916,
      "loss/hidden": 3.62734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2095857124775648,
      "step": 19040
    },
    {
      "epoch": 0.635,
      "grad_norm": 32.5,
      "grad_norm_var": 3.49765625,
      "learning_rate": 0.0001,
      "loss": 7.8074,
      "loss/crossentropy": 2.1023634552955626,
      "loss/hidden": 3.59140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1920078145340085,
      "step": 19050
    },
    {
      "epoch": 0.6353333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 2.9302083333333333,
      "learning_rate": 0.0001,
      "loss": 7.836,
      "loss/crossentropy": 2.2064808174967765,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20856849979609252,
      "step": 19060
    },
    {
      "epoch": 0.6356666666666667,
      "grad_norm": 31.875,
      "grad_norm_var": 14.134375,
      "learning_rate": 0.0001,
      "loss": 7.9529,
      "loss/crossentropy": 2.022094827145338,
      "loss/hidden": 3.588671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21211060788482428,
      "step": 19070
    },
    {
      "epoch": 0.636,
      "grad_norm": 30.625,
      "grad_norm_var": 7.253125,
      "learning_rate": 0.0001,
      "loss": 7.9353,
      "loss/crossentropy": 2.1081229224801064,
      "loss/hidden": 3.61875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20318191722035409,
      "step": 19080
    },
    {
      "epoch": 0.6363333333333333,
      "grad_norm": 31.0,
      "grad_norm_var": 7.374934895833333,
      "learning_rate": 0.0001,
      "loss": 7.9194,
      "loss/crossentropy": 2.179345028847456,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2187561433762312,
      "step": 19090
    },
    {
      "epoch": 0.6366666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 1.6650390625,
      "learning_rate": 0.0001,
      "loss": 7.7918,
      "loss/crossentropy": 2.073818951845169,
      "loss/hidden": 3.637890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22620401345193386,
      "step": 19100
    },
    {
      "epoch": 0.637,
      "grad_norm": 33.5,
      "grad_norm_var": 13.125,
      "learning_rate": 0.0001,
      "loss": 7.8342,
      "loss/crossentropy": 2.1005424194037916,
      "loss/hidden": 3.555859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.197703623957932,
      "step": 19110
    },
    {
      "epoch": 0.6373333333333333,
      "grad_norm": 29.5,
      "grad_norm_var": 13.416666666666666,
      "learning_rate": 0.0001,
      "loss": 7.712,
      "loss/crossentropy": 1.9248533256351947,
      "loss/hidden": 3.691015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22173443883657457,
      "step": 19120
    },
    {
      "epoch": 0.6376666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 7.163608467333465e+18,
      "learning_rate": 0.0001,
      "loss": 7.8861,
      "loss/crossentropy": 2.133715681731701,
      "loss/hidden": 3.56328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20394432581961155,
      "step": 19130
    },
    {
      "epoch": 0.638,
      "grad_norm": 32.0,
      "grad_norm_var": 3.9525419601292687e+18,
      "learning_rate": 0.0001,
      "loss": 7.9626,
      "loss/crossentropy": 2.325319290161133,
      "loss/hidden": 3.668359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23943714387714862,
      "step": 19140
    },
    {
      "epoch": 0.6383333333333333,
      "grad_norm": 31.375,
      "grad_norm_var": 1.5083333333333333,
      "learning_rate": 0.0001,
      "loss": 7.8766,
      "loss/crossentropy": 2.0861736297607423,
      "loss/hidden": 3.673046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2469935854896903,
      "step": 19150
    },
    {
      "epoch": 0.6386666666666667,
      "grad_norm": 29.25,
      "grad_norm_var": 4.2587890625,
      "learning_rate": 0.0001,
      "loss": 7.7649,
      "loss/crossentropy": 2.025897032767534,
      "loss/hidden": 3.508984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19602714721113443,
      "step": 19160
    },
    {
      "epoch": 0.639,
      "grad_norm": 310.0,
      "grad_norm_var": 4881.70390625,
      "learning_rate": 0.0001,
      "loss": 8.0063,
      "loss/crossentropy": 2.2703626573085787,
      "loss/hidden": 3.65078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22815561573952436,
      "step": 19170
    },
    {
      "epoch": 0.6393333333333333,
      "grad_norm": 30.75,
      "grad_norm_var": 4814.96875,
      "learning_rate": 0.0001,
      "loss": 7.9568,
      "loss/crossentropy": 2.130793032050133,
      "loss/hidden": 3.572265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21214349009096622,
      "step": 19180
    },
    {
      "epoch": 0.6396666666666667,
      "grad_norm": 40.0,
      "grad_norm_var": 18.782291666666666,
      "learning_rate": 0.0001,
      "loss": 7.8414,
      "loss/crossentropy": 1.9671615742146968,
      "loss/hidden": 3.69296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21655476819723846,
      "step": 19190
    },
    {
      "epoch": 0.64,
      "grad_norm": 28.5,
      "grad_norm_var": 7.598958333333333,
      "learning_rate": 0.0001,
      "loss": 7.6977,
      "loss/crossentropy": 1.9905995845794677,
      "loss/hidden": 3.551953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20198220126330851,
      "step": 19200
    },
    {
      "epoch": 0.6403333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 14.686393229166667,
      "learning_rate": 0.0001,
      "loss": 7.7702,
      "loss/crossentropy": 2.1015154205262663,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1957567347213626,
      "step": 19210
    },
    {
      "epoch": 0.6406666666666667,
      "grad_norm": 29.875,
      "grad_norm_var": 13.4166015625,
      "learning_rate": 0.0001,
      "loss": 7.8531,
      "loss/crossentropy": 2.102202596515417,
      "loss/hidden": 3.497265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20049150586128234,
      "step": 19220
    },
    {
      "epoch": 0.641,
      "grad_norm": 29.625,
      "grad_norm_var": 4.143489583333333,
      "learning_rate": 0.0001,
      "loss": 7.7549,
      "loss/crossentropy": 2.0605901539325715,
      "loss/hidden": 3.601171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21827564649283887,
      "step": 19230
    },
    {
      "epoch": 0.6413333333333333,
      "grad_norm": 28.875,
      "grad_norm_var": 26.48515625,
      "learning_rate": 0.0001,
      "loss": 7.8123,
      "loss/crossentropy": 2.0212767884135245,
      "loss/hidden": 3.65234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2223007800988853,
      "step": 19240
    },
    {
      "epoch": 0.6416666666666667,
      "grad_norm": 31.375,
      "grad_norm_var": 26.699739583333333,
      "learning_rate": 0.0001,
      "loss": 7.937,
      "loss/crossentropy": 2.0694237641990183,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20976187251508235,
      "step": 19250
    },
    {
      "epoch": 0.642,
      "grad_norm": 29.625,
      "grad_norm_var": 5.612239583333333,
      "learning_rate": 0.0001,
      "loss": 7.805,
      "loss/crossentropy": 2.163316985964775,
      "loss/hidden": 3.512109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20325905755162238,
      "step": 19260
    },
    {
      "epoch": 0.6423333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 4.861458333333333,
      "learning_rate": 0.0001,
      "loss": 7.7719,
      "loss/crossentropy": 2.0881971672177313,
      "loss/hidden": 3.61953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21606105621904134,
      "step": 19270
    },
    {
      "epoch": 0.6426666666666667,
      "grad_norm": 29.0,
      "grad_norm_var": 9.8556640625,
      "learning_rate": 0.0001,
      "loss": 7.8889,
      "loss/crossentropy": 2.171047043800354,
      "loss/hidden": 3.62421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22386016957461835,
      "step": 19280
    },
    {
      "epoch": 0.643,
      "grad_norm": 30.5,
      "grad_norm_var": 5.2375,
      "learning_rate": 0.0001,
      "loss": 7.7399,
      "loss/crossentropy": 2.09329297542572,
      "loss/hidden": 3.684765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.218923170119524,
      "step": 19290
    },
    {
      "epoch": 0.6433333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 7.108072916666667,
      "learning_rate": 0.0001,
      "loss": 7.7758,
      "loss/crossentropy": 2.0641403660178184,
      "loss/hidden": 3.558984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20265798550099134,
      "step": 19300
    },
    {
      "epoch": 0.6436666666666667,
      "grad_norm": 35.75,
      "grad_norm_var": 4.120833333333334,
      "learning_rate": 0.0001,
      "loss": 7.8368,
      "loss/crossentropy": 2.1241923332214356,
      "loss/hidden": 3.4953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19217857848852873,
      "step": 19310
    },
    {
      "epoch": 0.644,
      "grad_norm": 36.75,
      "grad_norm_var": 27.8978515625,
      "learning_rate": 0.0001,
      "loss": 7.8321,
      "loss/crossentropy": 2.0242124810814857,
      "loss/hidden": 3.682421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19688315968960524,
      "step": 19320
    },
    {
      "epoch": 0.6443333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 7.702083333333333,
      "learning_rate": 0.0001,
      "loss": 7.7452,
      "loss/crossentropy": 2.093150442838669,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1998631376773119,
      "step": 19330
    },
    {
      "epoch": 0.6446666666666667,
      "grad_norm": 36.75,
      "grad_norm_var": 9.519791666666666,
      "learning_rate": 0.0001,
      "loss": 7.8062,
      "loss/crossentropy": 2.1420770615339277,
      "loss/hidden": 3.5640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20922097396105527,
      "step": 19340
    },
    {
      "epoch": 0.645,
      "grad_norm": 33.0,
      "grad_norm_var": 9.233333333333333,
      "learning_rate": 0.0001,
      "loss": 7.8477,
      "loss/crossentropy": 2.1200323194265365,
      "loss/hidden": 3.65234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23046185187995433,
      "step": 19350
    },
    {
      "epoch": 0.6453333333333333,
      "grad_norm": 29.375,
      "grad_norm_var": 6.540559895833334,
      "learning_rate": 0.0001,
      "loss": 7.7967,
      "loss/crossentropy": 2.054234591126442,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2208017086610198,
      "step": 19360
    },
    {
      "epoch": 0.6456666666666667,
      "grad_norm": 30.25,
      "grad_norm_var": 2.4139973958333334,
      "learning_rate": 0.0001,
      "loss": 7.8385,
      "loss/crossentropy": 2.0128255039453506,
      "loss/hidden": 3.786328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22819863110780716,
      "step": 19370
    },
    {
      "epoch": 0.646,
      "grad_norm": 32.0,
      "grad_norm_var": 1.6363932291666667,
      "learning_rate": 0.0001,
      "loss": 7.7009,
      "loss/crossentropy": 2.024762587249279,
      "loss/hidden": 3.61640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20730710867792368,
      "step": 19380
    },
    {
      "epoch": 0.6463333333333333,
      "grad_norm": 36.0,
      "grad_norm_var": 3.693489583333333,
      "learning_rate": 0.0001,
      "loss": 7.7849,
      "loss/crossentropy": 1.9413291484117507,
      "loss/hidden": 3.58984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20006432849913836,
      "step": 19390
    },
    {
      "epoch": 0.6466666666666666,
      "grad_norm": 28.0,
      "grad_norm_var": 6.737239583333333,
      "learning_rate": 0.0001,
      "loss": 7.7068,
      "loss/crossentropy": 2.219281970709562,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2173599960282445,
      "step": 19400
    },
    {
      "epoch": 0.647,
      "grad_norm": 29.5,
      "grad_norm_var": 5.31640625,
      "learning_rate": 0.0001,
      "loss": 7.9205,
      "loss/crossentropy": 2.0932188779115677,
      "loss/hidden": 3.573046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2144004687666893,
      "step": 19410
    },
    {
      "epoch": 0.6473333333333333,
      "grad_norm": 33.75,
      "grad_norm_var": 2.167708333333333,
      "learning_rate": 0.0001,
      "loss": 7.9694,
      "loss/crossentropy": 2.187512440979481,
      "loss/hidden": 3.666015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21288955435156823,
      "step": 19420
    },
    {
      "epoch": 0.6476666666666666,
      "grad_norm": 32.0,
      "grad_norm_var": 19.3244140625,
      "learning_rate": 0.0001,
      "loss": 7.9391,
      "loss/crossentropy": 2.156757637858391,
      "loss/hidden": 3.61875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21084595024585723,
      "step": 19430
    },
    {
      "epoch": 0.648,
      "grad_norm": 29.875,
      "grad_norm_var": 4.955143229166667,
      "learning_rate": 0.0001,
      "loss": 7.8517,
      "loss/crossentropy": 2.218225100636482,
      "loss/hidden": 3.56015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21003954205662012,
      "step": 19440
    },
    {
      "epoch": 0.6483333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 2.2905598958333333,
      "learning_rate": 0.0001,
      "loss": 7.8119,
      "loss/crossentropy": 2.1156990200281145,
      "loss/hidden": 3.6578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21486669424921273,
      "step": 19450
    },
    {
      "epoch": 0.6486666666666666,
      "grad_norm": 30.875,
      "grad_norm_var": 3.03515625,
      "learning_rate": 0.0001,
      "loss": 7.7407,
      "loss/crossentropy": 2.0934729874134064,
      "loss/hidden": 3.61328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20924665350466967,
      "step": 19460
    },
    {
      "epoch": 0.649,
      "grad_norm": 31.25,
      "grad_norm_var": 1.3832682291666667,
      "learning_rate": 0.0001,
      "loss": 7.7772,
      "loss/crossentropy": 2.167033377289772,
      "loss/hidden": 3.596484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21081157084554433,
      "step": 19470
    },
    {
      "epoch": 0.6493333333333333,
      "grad_norm": 30.25,
      "grad_norm_var": 6.167643229166667,
      "learning_rate": 0.0001,
      "loss": 7.8026,
      "loss/crossentropy": 2.0574812293052673,
      "loss/hidden": 3.6078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21090691294521094,
      "step": 19480
    },
    {
      "epoch": 0.6496666666666666,
      "grad_norm": 30.125,
      "grad_norm_var": 131.05625,
      "learning_rate": 0.0001,
      "loss": 7.8775,
      "loss/crossentropy": 2.037951024621725,
      "loss/hidden": 3.607421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2193830787204206,
      "step": 19490
    },
    {
      "epoch": 0.65,
      "grad_norm": 32.5,
      "grad_norm_var": 1.7166666666666666,
      "learning_rate": 0.0001,
      "loss": 7.9099,
      "loss/crossentropy": 2.1335637837648393,
      "loss/hidden": 3.621484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22563568409532309,
      "step": 19500
    },
    {
      "epoch": 0.6503333333333333,
      "grad_norm": 31.0,
      "grad_norm_var": 7.759309895833334,
      "learning_rate": 0.0001,
      "loss": 7.6947,
      "loss/crossentropy": 2.0860137730836867,
      "loss/hidden": 3.56640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20874691233038903,
      "step": 19510
    },
    {
      "epoch": 0.6506666666666666,
      "grad_norm": 32.0,
      "grad_norm_var": 20.720247395833333,
      "learning_rate": 0.0001,
      "loss": 7.9359,
      "loss/crossentropy": 2.176954896748066,
      "loss/hidden": 3.58359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21417912952601909,
      "step": 19520
    },
    {
      "epoch": 0.651,
      "grad_norm": 29.25,
      "grad_norm_var": 16.797916666666666,
      "learning_rate": 0.0001,
      "loss": 7.7905,
      "loss/crossentropy": 2.112550212442875,
      "loss/hidden": 3.535546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21057379432022572,
      "step": 19530
    },
    {
      "epoch": 0.6513333333333333,
      "grad_norm": 35.25,
      "grad_norm_var": 5.109375,
      "learning_rate": 0.0001,
      "loss": 7.7381,
      "loss/crossentropy": 2.0441600404679776,
      "loss/hidden": 3.759765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2118663378059864,
      "step": 19540
    },
    {
      "epoch": 0.6516666666666666,
      "grad_norm": 29.25,
      "grad_norm_var": 3.8622395833333334,
      "learning_rate": 0.0001,
      "loss": 7.8123,
      "loss/crossentropy": 2.015673951804638,
      "loss/hidden": 3.516015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2035064060240984,
      "step": 19550
    },
    {
      "epoch": 0.652,
      "grad_norm": 30.5,
      "grad_norm_var": 4.835416666666666,
      "learning_rate": 0.0001,
      "loss": 7.9088,
      "loss/crossentropy": 2.1083447858691216,
      "loss/hidden": 3.686328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22277338355779647,
      "step": 19560
    },
    {
      "epoch": 0.6523333333333333,
      "grad_norm": 29.5,
      "grad_norm_var": 7.986458333333333,
      "learning_rate": 0.0001,
      "loss": 7.7413,
      "loss/crossentropy": 2.2140139706432818,
      "loss/hidden": 3.536328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19835165999829768,
      "step": 19570
    },
    {
      "epoch": 0.6526666666666666,
      "grad_norm": 46.25,
      "grad_norm_var": 22.6853515625,
      "learning_rate": 0.0001,
      "loss": 7.8156,
      "loss/crossentropy": 2.098857820034027,
      "loss/hidden": 3.628125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2128402628004551,
      "step": 19580
    },
    {
      "epoch": 0.653,
      "grad_norm": 29.0,
      "grad_norm_var": 3.4058471867640274e+18,
      "learning_rate": 0.0001,
      "loss": 7.941,
      "loss/crossentropy": 2.161790570616722,
      "loss/hidden": 3.558203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21066656708717346,
      "step": 19590
    },
    {
      "epoch": 0.6533333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 31.020572916666666,
      "learning_rate": 0.0001,
      "loss": 7.8532,
      "loss/crossentropy": 2.1808153837919235,
      "loss/hidden": 3.630859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21154428124427796,
      "step": 19600
    },
    {
      "epoch": 0.6536666666666666,
      "grad_norm": 30.0,
      "grad_norm_var": 2.294791666666667,
      "learning_rate": 0.0001,
      "loss": 7.7141,
      "loss/crossentropy": 2.084941604733467,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2059195751324296,
      "step": 19610
    },
    {
      "epoch": 0.654,
      "grad_norm": 29.875,
      "grad_norm_var": 2.474739583333333,
      "learning_rate": 0.0001,
      "loss": 7.7995,
      "loss/crossentropy": 1.9402640502899886,
      "loss/hidden": 3.602734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19613281125202775,
      "step": 19620
    },
    {
      "epoch": 0.6543333333333333,
      "grad_norm": 30.125,
      "grad_norm_var": 123.0462890625,
      "learning_rate": 0.0001,
      "loss": 7.8662,
      "loss/crossentropy": 2.056548047810793,
      "loss/hidden": 3.443359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19428260792046786,
      "step": 19630
    },
    {
      "epoch": 0.6546666666666666,
      "grad_norm": 5469372416.0,
      "grad_norm_var": 3.757034120500845e+18,
      "learning_rate": 0.0001,
      "loss": 7.8375,
      "loss/crossentropy": 2.173163182288408,
      "loss/hidden": 3.60703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21105932276695966,
      "step": 19640
    },
    {
      "epoch": 0.655,
      "grad_norm": 30.125,
      "grad_norm_var": 3.757034118776007e+18,
      "learning_rate": 0.0001,
      "loss": 7.7935,
      "loss/crossentropy": 2.129123020917177,
      "loss/hidden": 3.625390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21240208223462104,
      "step": 19650
    },
    {
      "epoch": 0.6553333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 4.189518229166667,
      "learning_rate": 0.0001,
      "loss": 7.6158,
      "loss/crossentropy": 2.080010825395584,
      "loss/hidden": 3.594921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20815913137048483,
      "step": 19660
    },
    {
      "epoch": 0.6556666666666666,
      "grad_norm": 27.25,
      "grad_norm_var": 6.65,
      "learning_rate": 0.0001,
      "loss": 7.6821,
      "loss/crossentropy": 1.9834842666983605,
      "loss/hidden": 3.469140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19239332657307387,
      "step": 19670
    },
    {
      "epoch": 0.656,
      "grad_norm": 49.0,
      "grad_norm_var": 26.429622395833334,
      "learning_rate": 0.0001,
      "loss": 7.7928,
      "loss/crossentropy": 2.0769309490919112,
      "loss/hidden": 3.56640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2172299936413765,
      "step": 19680
    },
    {
      "epoch": 0.6563333333333333,
      "grad_norm": 31.0,
      "grad_norm_var": 24.833333333333332,
      "learning_rate": 0.0001,
      "loss": 7.7632,
      "loss/crossentropy": 2.0378880076110364,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21062599224969744,
      "step": 19690
    },
    {
      "epoch": 0.6566666666666666,
      "grad_norm": 33.5,
      "grad_norm_var": 3.2285807291666666,
      "learning_rate": 0.0001,
      "loss": 7.8179,
      "loss/crossentropy": 2.0788474015891554,
      "loss/hidden": 3.703515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20390022164210678,
      "step": 19700
    },
    {
      "epoch": 0.657,
      "grad_norm": 32.0,
      "grad_norm_var": 2.20625,
      "learning_rate": 0.0001,
      "loss": 7.796,
      "loss/crossentropy": 1.9499784991145135,
      "loss/hidden": 3.72890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21807905454188586,
      "step": 19710
    },
    {
      "epoch": 0.6573333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 2.9082682291666666,
      "learning_rate": 0.0001,
      "loss": 7.7345,
      "loss/crossentropy": 2.05738410204649,
      "loss/hidden": 3.614453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2033387843519449,
      "step": 19720
    },
    {
      "epoch": 0.6576666666666666,
      "grad_norm": 31.75,
      "grad_norm_var": 6.730989583333334,
      "learning_rate": 0.0001,
      "loss": 7.8437,
      "loss/crossentropy": 2.076332356035709,
      "loss/hidden": 3.60703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2070010544732213,
      "step": 19730
    },
    {
      "epoch": 0.658,
      "grad_norm": 31.5,
      "grad_norm_var": 1.5077473958333334,
      "learning_rate": 0.0001,
      "loss": 7.7077,
      "loss/crossentropy": 2.165965069830418,
      "loss/hidden": 3.56328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20955195166170598,
      "step": 19740
    },
    {
      "epoch": 0.6583333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 1.075,
      "learning_rate": 0.0001,
      "loss": 7.8811,
      "loss/crossentropy": 2.1568801373243334,
      "loss/hidden": 3.615625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21716065630316733,
      "step": 19750
    },
    {
      "epoch": 0.6586666666666666,
      "grad_norm": 28.625,
      "grad_norm_var": 6.21015625,
      "learning_rate": 0.0001,
      "loss": 7.8508,
      "loss/crossentropy": 2.0843460261821747,
      "loss/hidden": 3.658984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23474157508462667,
      "step": 19760
    },
    {
      "epoch": 0.659,
      "grad_norm": 29.75,
      "grad_norm_var": 5.1494140625,
      "learning_rate": 0.0001,
      "loss": 7.792,
      "loss/crossentropy": 2.084406663477421,
      "loss/hidden": 3.51796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20483186282217503,
      "step": 19770
    },
    {
      "epoch": 0.6593333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 2.3197265625,
      "learning_rate": 0.0001,
      "loss": 7.7708,
      "loss/crossentropy": 2.0922622852027417,
      "loss/hidden": 3.5796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20298854364082217,
      "step": 19780
    },
    {
      "epoch": 0.6596666666666666,
      "grad_norm": 31.375,
      "grad_norm_var": 3.8041015625,
      "learning_rate": 0.0001,
      "loss": 7.9193,
      "loss/crossentropy": 1.9548385262489318,
      "loss/hidden": 3.68125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2344514699652791,
      "step": 19790
    },
    {
      "epoch": 0.66,
      "grad_norm": 31.875,
      "grad_norm_var": 3.436393229166667,
      "learning_rate": 0.0001,
      "loss": 7.9176,
      "loss/crossentropy": 2.099733465909958,
      "loss/hidden": 3.55234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20575151350349188,
      "step": 19800
    },
    {
      "epoch": 0.6603333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 13.2375,
      "learning_rate": 0.0001,
      "loss": 7.7812,
      "loss/crossentropy": 2.038871665298939,
      "loss/hidden": 3.61484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2236450683325529,
      "step": 19810
    },
    {
      "epoch": 0.6606666666666666,
      "grad_norm": 30.75,
      "grad_norm_var": 13.39765625,
      "learning_rate": 0.0001,
      "loss": 7.7482,
      "loss/crossentropy": 2.075606144964695,
      "loss/hidden": 3.666796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20769685432314872,
      "step": 19820
    },
    {
      "epoch": 0.661,
      "grad_norm": 37.0,
      "grad_norm_var": 6.546875,
      "learning_rate": 0.0001,
      "loss": 7.7292,
      "loss/crossentropy": 2.247103089094162,
      "loss/hidden": 3.686328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2320896226912737,
      "step": 19830
    },
    {
      "epoch": 0.6613333333333333,
      "grad_norm": 29.0,
      "grad_norm_var": 18.645247395833334,
      "learning_rate": 0.0001,
      "loss": 7.782,
      "loss/crossentropy": 2.1111979484558105,
      "loss/hidden": 3.64453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2169733637943864,
      "step": 19840
    },
    {
      "epoch": 0.6616666666666666,
      "grad_norm": 34.25,
      "grad_norm_var": 20.564518229166666,
      "learning_rate": 0.0001,
      "loss": 7.805,
      "loss/crossentropy": 2.1517412811517715,
      "loss/hidden": 3.656640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22375482488423587,
      "step": 19850
    },
    {
      "epoch": 0.662,
      "grad_norm": 30.75,
      "grad_norm_var": 6.059375,
      "learning_rate": 0.0001,
      "loss": 7.6481,
      "loss/crossentropy": 1.8939931578934193,
      "loss/hidden": 3.6609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2128385290503502,
      "step": 19860
    },
    {
      "epoch": 0.6623333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 7.92890625,
      "learning_rate": 0.0001,
      "loss": 7.7487,
      "loss/crossentropy": 2.2018162116408346,
      "loss/hidden": 3.61875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22412298023700714,
      "step": 19870
    },
    {
      "epoch": 0.6626666666666666,
      "grad_norm": 32.75,
      "grad_norm_var": 9.864322916666667,
      "learning_rate": 0.0001,
      "loss": 7.7606,
      "loss/crossentropy": 2.1517828926444054,
      "loss/hidden": 3.54140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2149300893768668,
      "step": 19880
    },
    {
      "epoch": 0.663,
      "grad_norm": 30.0,
      "grad_norm_var": 3.3268229166666665,
      "learning_rate": 0.0001,
      "loss": 7.9545,
      "loss/crossentropy": 2.1691304370760918,
      "loss/hidden": 3.662890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21897413935512305,
      "step": 19890
    },
    {
      "epoch": 0.6633333333333333,
      "grad_norm": 35.5,
      "grad_norm_var": 11.280143229166667,
      "learning_rate": 0.0001,
      "loss": 7.8222,
      "loss/crossentropy": 2.1076577827334404,
      "loss/hidden": 3.65078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21274937596172094,
      "step": 19900
    },
    {
      "epoch": 0.6636666666666666,
      "grad_norm": 29.625,
      "grad_norm_var": 13.858072916666666,
      "learning_rate": 0.0001,
      "loss": 7.8676,
      "loss/crossentropy": 2.1668387286365034,
      "loss/hidden": 3.5890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21026035211980343,
      "step": 19910
    },
    {
      "epoch": 0.664,
      "grad_norm": 30.125,
      "grad_norm_var": 1.4061848958333334,
      "learning_rate": 0.0001,
      "loss": 7.7496,
      "loss/crossentropy": 2.052803510427475,
      "loss/hidden": 3.642578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20628087930381298,
      "step": 19920
    },
    {
      "epoch": 0.6643333333333333,
      "grad_norm": 31.5,
      "grad_norm_var": 5.010872395833333,
      "learning_rate": 0.0001,
      "loss": 7.8597,
      "loss/crossentropy": 2.2376641765236855,
      "loss/hidden": 3.6359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22267442829906942,
      "step": 19930
    },
    {
      "epoch": 0.6646666666666666,
      "grad_norm": 30.875,
      "grad_norm_var": 7.891666666666667,
      "learning_rate": 0.0001,
      "loss": 7.7664,
      "loss/crossentropy": 2.1567267000675203,
      "loss/hidden": 3.590625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20887317396700383,
      "step": 19940
    },
    {
      "epoch": 0.665,
      "grad_norm": 29.375,
      "grad_norm_var": 33.853580729166666,
      "learning_rate": 0.0001,
      "loss": 7.7958,
      "loss/crossentropy": 2.0834827691316606,
      "loss/hidden": 3.5921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21954385321587325,
      "step": 19950
    },
    {
      "epoch": 0.6653333333333333,
      "grad_norm": 32.75,
      "grad_norm_var": 35.7337890625,
      "learning_rate": 0.0001,
      "loss": 7.855,
      "loss/crossentropy": 2.0476011231541635,
      "loss/hidden": 3.689453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23169058002531528,
      "step": 19960
    },
    {
      "epoch": 0.6656666666666666,
      "grad_norm": 31.5,
      "grad_norm_var": 8.638997395833334,
      "learning_rate": 0.0001,
      "loss": 7.741,
      "loss/crossentropy": 2.2387500554323196,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2047835446894169,
      "step": 19970
    },
    {
      "epoch": 0.666,
      "grad_norm": 38.25,
      "grad_norm_var": 11.805208333333333,
      "learning_rate": 0.0001,
      "loss": 7.7604,
      "loss/crossentropy": 2.0881649285554884,
      "loss/hidden": 3.614453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19943447094410657,
      "step": 19980
    },
    {
      "epoch": 0.6663333333333333,
      "grad_norm": 38.0,
      "grad_norm_var": 10.564518229166667,
      "learning_rate": 0.0001,
      "loss": 7.7988,
      "loss/crossentropy": 2.0458758428692816,
      "loss/hidden": 3.673046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22079507317394018,
      "step": 19990
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 35.0,
      "grad_norm_var": 8.631184895833334,
      "learning_rate": 0.0001,
      "loss": 7.7353,
      "loss/crossentropy": 2.1835017532110212,
      "loss/hidden": 3.6046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21447087433189155,
      "step": 20000
    },
    {
      "epoch": 0.667,
      "grad_norm": 27.75,
      "grad_norm_var": 2.8713262106311393e+18,
      "learning_rate": 9.999977793408362e-05,
      "loss": 7.7009,
      "loss/crossentropy": 2.1651393327862025,
      "loss/hidden": 3.6609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22053546169772745,
      "step": 20010
    },
    {
      "epoch": 0.6673333333333333,
      "grad_norm": 29.0,
      "grad_norm_var": 10.5337890625,
      "learning_rate": 9.999911173852618e-05,
      "loss": 7.7892,
      "loss/crossentropy": 2.049077409505844,
      "loss/hidden": 3.62890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21919873766601086,
      "step": 20020
    },
    {
      "epoch": 0.6676666666666666,
      "grad_norm": 33.25,
      "grad_norm_var": 5.30390625,
      "learning_rate": 9.999800141990274e-05,
      "loss": 7.7849,
      "loss/crossentropy": 2.100401471555233,
      "loss/hidden": 3.543359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1976662116125226,
      "step": 20030
    },
    {
      "epoch": 0.668,
      "grad_norm": 30.75,
      "grad_norm_var": 4.901041666666667,
      "learning_rate": 9.999644698917173e-05,
      "loss": 7.7615,
      "loss/crossentropy": 2.0303331464529037,
      "loss/hidden": 3.64140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20121301785111428,
      "step": 20040
    },
    {
      "epoch": 0.6683333333333333,
      "grad_norm": 6710886400.0,
      "grad_norm_var": 6.481711869968061e+18,
      "learning_rate": 9.999444846167473e-05,
      "loss": 7.9027,
      "loss/crossentropy": 2.11352252215147,
      "loss/hidden": 3.676953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23072675410658122,
      "step": 20050
    },
    {
      "epoch": 0.6686666666666666,
      "grad_norm": 29.875,
      "grad_norm_var": 6.481711869365549e+18,
      "learning_rate": 9.99920058571364e-05,
      "loss": 7.8042,
      "loss/crossentropy": 2.0778122201561926,
      "loss/hidden": 3.620703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20652580186724662,
      "step": 20060
    },
    {
      "epoch": 0.669,
      "grad_norm": 30.125,
      "grad_norm_var": 6.4056640625,
      "learning_rate": 9.99891191996643e-05,
      "loss": 7.6094,
      "loss/crossentropy": 2.1776298195123673,
      "loss/hidden": 3.56796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20591478087008,
      "step": 20070
    },
    {
      "epoch": 0.6693333333333333,
      "grad_norm": 28.75,
      "grad_norm_var": 8.021875,
      "learning_rate": 9.99857885177485e-05,
      "loss": 7.7139,
      "loss/crossentropy": 2.0494499459862707,
      "loss/hidden": 3.546484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19295884054154158,
      "step": 20080
    },
    {
      "epoch": 0.6696666666666666,
      "grad_norm": 32.5,
      "grad_norm_var": 5.2994140625,
      "learning_rate": 9.998201384426155e-05,
      "loss": 7.7195,
      "loss/crossentropy": 1.9814274668693543,
      "loss/hidden": 3.580078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20319805517792702,
      "step": 20090
    },
    {
      "epoch": 0.67,
      "grad_norm": 28.25,
      "grad_norm_var": 7.0119140625,
      "learning_rate": 9.997779521645793e-05,
      "loss": 7.8642,
      "loss/crossentropy": 2.0849661231040955,
      "loss/hidden": 3.614453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21840104656293988,
      "step": 20100
    },
    {
      "epoch": 0.6703333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 6.142122395833334,
      "learning_rate": 9.997313267597378e-05,
      "loss": 7.8638,
      "loss/crossentropy": 2.0836787208914758,
      "loss/hidden": 3.576953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2186410004273057,
      "step": 20110
    },
    {
      "epoch": 0.6706666666666666,
      "grad_norm": 30.375,
      "grad_norm_var": 12.291080729166667,
      "learning_rate": 9.996802626882653e-05,
      "loss": 7.7777,
      "loss/crossentropy": 2.03349449634552,
      "loss/hidden": 3.59609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21252898061648012,
      "step": 20120
    },
    {
      "epoch": 0.671,
      "grad_norm": 28.875,
      "grad_norm_var": 12.816080729166666,
      "learning_rate": 9.99624760454143e-05,
      "loss": 7.7899,
      "loss/crossentropy": 2.032351566851139,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21746116746217012,
      "step": 20130
    },
    {
      "epoch": 0.6713333333333333,
      "grad_norm": 27.75,
      "grad_norm_var": 4.3947265625,
      "learning_rate": 9.995648206051563e-05,
      "loss": 7.8777,
      "loss/crossentropy": 2.148711860179901,
      "loss/hidden": 3.753125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22083626296371223,
      "step": 20140
    },
    {
      "epoch": 0.6716666666666666,
      "grad_norm": 31.75,
      "grad_norm_var": 2.348372395833333,
      "learning_rate": 9.995004437328867e-05,
      "loss": 7.7507,
      "loss/crossentropy": 1.838768770545721,
      "loss/hidden": 3.54765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18891090219840406,
      "step": 20150
    },
    {
      "epoch": 0.672,
      "grad_norm": 30.75,
      "grad_norm_var": 3.405989583333333,
      "learning_rate": 9.99431630472708e-05,
      "loss": 7.7609,
      "loss/crossentropy": 1.9995342150330544,
      "loss/hidden": 3.71796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22888598432764412,
      "step": 20160
    },
    {
      "epoch": 0.6723333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 115.0259765625,
      "learning_rate": 9.993583815037793e-05,
      "loss": 7.8473,
      "loss/crossentropy": 2.0745826318860052,
      "loss/hidden": 3.52421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1968067741021514,
      "step": 20170
    },
    {
      "epoch": 0.6726666666666666,
      "grad_norm": 30.5,
      "grad_norm_var": 119.87682291666667,
      "learning_rate": 9.992806975490389e-05,
      "loss": 7.6878,
      "loss/crossentropy": 2.186102945357561,
      "loss/hidden": 3.604296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21814998863264917,
      "step": 20180
    },
    {
      "epoch": 0.673,
      "grad_norm": 30.375,
      "grad_norm_var": 3.3150390625,
      "learning_rate": 9.991985793751955e-05,
      "loss": 7.869,
      "loss/crossentropy": 2.1551688984036446,
      "loss/hidden": 3.740234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2181480558589101,
      "step": 20190
    },
    {
      "epoch": 0.6733333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 2.3955729166666666,
      "learning_rate": 9.991120277927223e-05,
      "loss": 7.7436,
      "loss/crossentropy": 2.1464362293481827,
      "loss/hidden": 3.53671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20534380227327348,
      "step": 20200
    },
    {
      "epoch": 0.6736666666666666,
      "grad_norm": 33.75,
      "grad_norm_var": 2.9457682291666667,
      "learning_rate": 9.990210436558488e-05,
      "loss": 7.7295,
      "loss/crossentropy": 2.1891664013266565,
      "loss/hidden": 3.49296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20168747715651988,
      "step": 20210
    },
    {
      "epoch": 0.674,
      "grad_norm": 30.25,
      "grad_norm_var": 4.6306640625,
      "learning_rate": 9.989256278625514e-05,
      "loss": 7.6581,
      "loss/crossentropy": 1.9678195029497147,
      "loss/hidden": 3.469140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1858463604003191,
      "step": 20220
    },
    {
      "epoch": 0.6743333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 5.518684895833333,
      "learning_rate": 9.988257813545458e-05,
      "loss": 7.7895,
      "loss/crossentropy": 2.106415245682001,
      "loss/hidden": 3.66953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22159097539260983,
      "step": 20230
    },
    {
      "epoch": 0.6746666666666666,
      "grad_norm": 30.75,
      "grad_norm_var": 2.7979166666666666,
      "learning_rate": 9.987215051172763e-05,
      "loss": 7.8636,
      "loss/crossentropy": 2.040626636892557,
      "loss/hidden": 3.558984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21652155686169863,
      "step": 20240
    },
    {
      "epoch": 0.675,
      "grad_norm": 31.0,
      "grad_norm_var": 3.1832682291666665,
      "learning_rate": 9.986128001799077e-05,
      "loss": 7.7925,
      "loss/crossentropy": 2.1772810891270638,
      "loss/hidden": 3.684375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2191918555647135,
      "step": 20250
    },
    {
      "epoch": 0.6753333333333333,
      "grad_norm": 31.875,
      "grad_norm_var": 3.9124348958333335,
      "learning_rate": 9.984996676153134e-05,
      "loss": 7.695,
      "loss/crossentropy": 2.180080857872963,
      "loss/hidden": 3.647265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22119200490415097,
      "step": 20260
    },
    {
      "epoch": 0.6756666666666666,
      "grad_norm": 30.0,
      "grad_norm_var": 4.589518229166667,
      "learning_rate": 9.983821085400665e-05,
      "loss": 7.9482,
      "loss/crossentropy": 2.102330905199051,
      "loss/hidden": 3.6609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2217390850186348,
      "step": 20270
    },
    {
      "epoch": 0.676,
      "grad_norm": 31.0,
      "grad_norm_var": 3.888541666666667,
      "learning_rate": 9.982601241144277e-05,
      "loss": 7.7288,
      "loss/crossentropy": 1.9200996845960616,
      "loss/hidden": 3.636328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19473480042070151,
      "step": 20280
    },
    {
      "epoch": 0.6763333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 13.608072916666666,
      "learning_rate": 9.981337155423336e-05,
      "loss": 7.876,
      "loss/crossentropy": 2.160831370949745,
      "loss/hidden": 3.55,
      "loss/jsd": 0.0,
      "loss/logits": 0.21856002546846867,
      "step": 20290
    },
    {
      "epoch": 0.6766666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 3.2994140625,
      "learning_rate": 9.980028840713861e-05,
      "loss": 7.7397,
      "loss/crossentropy": 1.8465786181390285,
      "loss/hidden": 3.592578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19492179118096828,
      "step": 20300
    },
    {
      "epoch": 0.677,
      "grad_norm": 31.125,
      "grad_norm_var": 2.7372395833333334,
      "learning_rate": 9.978676309928389e-05,
      "loss": 7.7692,
      "loss/crossentropy": 2.069914309307933,
      "loss/hidden": 3.591015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20638742656446993,
      "step": 20310
    },
    {
      "epoch": 0.6773333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 2.5479166666666666,
      "learning_rate": 9.977279576415853e-05,
      "loss": 8.0062,
      "loss/crossentropy": 2.1518563136458395,
      "loss/hidden": 3.65,
      "loss/jsd": 0.0,
      "loss/logits": 0.21888233721256256,
      "step": 20320
    },
    {
      "epoch": 0.6776666666666666,
      "grad_norm": 32.5,
      "grad_norm_var": 1.9254557291666667,
      "learning_rate": 9.975838653961446e-05,
      "loss": 7.7995,
      "loss/crossentropy": 2.1415294885635374,
      "loss/hidden": 3.61796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2294903416186571,
      "step": 20330
    },
    {
      "epoch": 0.678,
      "grad_norm": 30.125,
      "grad_norm_var": 3.7520182291666666,
      "learning_rate": 9.974353556786496e-05,
      "loss": 7.7562,
      "loss/crossentropy": 2.060848282277584,
      "loss/hidden": 3.518359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2027845649048686,
      "step": 20340
    },
    {
      "epoch": 0.6783333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 1.8582682291666666,
      "learning_rate": 9.97282429954831e-05,
      "loss": 7.8245,
      "loss/crossentropy": 2.0787692457437514,
      "loss/hidden": 3.639453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21248381081968545,
      "step": 20350
    },
    {
      "epoch": 0.6786666666666666,
      "grad_norm": 29.25,
      "grad_norm_var": 1.2686848958333334,
      "learning_rate": 9.971250897340038e-05,
      "loss": 7.7767,
      "loss/crossentropy": 2.1000698655843735,
      "loss/hidden": 3.746484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2223961053416133,
      "step": 20360
    },
    {
      "epoch": 0.679,
      "grad_norm": 30.0,
      "grad_norm_var": 2.798958333333333,
      "learning_rate": 9.969633365690528e-05,
      "loss": 7.7855,
      "loss/crossentropy": 2.2210501074790954,
      "loss/hidden": 3.634765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2190061157569289,
      "step": 20370
    },
    {
      "epoch": 0.6793333333333333,
      "grad_norm": 31.5,
      "grad_norm_var": 10.903580729166666,
      "learning_rate": 9.967971720564162e-05,
      "loss": 7.8671,
      "loss/crossentropy": 2.25355578660965,
      "loss/hidden": 3.623828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22110446617007257,
      "step": 20380
    },
    {
      "epoch": 0.6796666666666666,
      "grad_norm": 32.25,
      "grad_norm_var": 10.023958333333333,
      "learning_rate": 9.966265978360708e-05,
      "loss": 7.9619,
      "loss/crossentropy": 2.2148331478238106,
      "loss/hidden": 3.708984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2353464813902974,
      "step": 20390
    },
    {
      "epoch": 0.68,
      "grad_norm": 29.25,
      "grad_norm_var": 3.583268229166667,
      "learning_rate": 9.964516155915151e-05,
      "loss": 7.7277,
      "loss/crossentropy": 2.0867557391524314,
      "loss/hidden": 3.665234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.217846536077559,
      "step": 20400
    },
    {
      "epoch": 0.6803333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 2.0872395833333335,
      "learning_rate": 9.962722270497534e-05,
      "loss": 7.81,
      "loss/crossentropy": 2.1222174257040023,
      "loss/hidden": 3.691796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2225545782595873,
      "step": 20410
    },
    {
      "epoch": 0.6806666666666666,
      "grad_norm": 32.5,
      "grad_norm_var": 3.3593098958333334,
      "learning_rate": 9.960884339812781e-05,
      "loss": 7.8604,
      "loss/crossentropy": 2.0085777252912522,
      "loss/hidden": 3.63359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2187149330973625,
      "step": 20420
    },
    {
      "epoch": 0.681,
      "grad_norm": 29.0,
      "grad_norm_var": 306.26875,
      "learning_rate": 9.959002382000524e-05,
      "loss": 7.7649,
      "loss/crossentropy": 1.929932000488043,
      "loss/hidden": 3.672265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20384540902450682,
      "step": 20430
    },
    {
      "epoch": 0.6813333333333333,
      "grad_norm": 31.625,
      "grad_norm_var": 299.79765625,
      "learning_rate": 9.95707641563493e-05,
      "loss": 7.8215,
      "loss/crossentropy": 2.055840089917183,
      "loss/hidden": 3.61953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19900662265717983,
      "step": 20440
    },
    {
      "epoch": 0.6816666666666666,
      "grad_norm": 34.25,
      "grad_norm_var": 22.658072916666665,
      "learning_rate": 9.95510645972451e-05,
      "loss": 7.7012,
      "loss/crossentropy": 2.1488531097769736,
      "loss/hidden": 3.63359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2117614457383752,
      "step": 20450
    },
    {
      "epoch": 0.682,
      "grad_norm": 33.5,
      "grad_norm_var": 26.0291015625,
      "learning_rate": 9.95309253371193e-05,
      "loss": 7.717,
      "loss/crossentropy": 2.2348560094833374,
      "loss/hidden": 3.512890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1998794011771679,
      "step": 20460
    },
    {
      "epoch": 0.6823333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 2.5136418842933724e+18,
      "learning_rate": 9.951034657473828e-05,
      "loss": 7.7369,
      "loss/crossentropy": 2.160574886202812,
      "loss/hidden": 3.598046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20629960373044015,
      "step": 20470
    },
    {
      "epoch": 0.6826666666666666,
      "grad_norm": 28.5,
      "grad_norm_var": 65.0134765625,
      "learning_rate": 9.948932851320614e-05,
      "loss": 7.7652,
      "loss/crossentropy": 2.1478210985660553,
      "loss/hidden": 3.62265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21312507782131435,
      "step": 20480
    },
    {
      "epoch": 0.683,
      "grad_norm": 28.0,
      "grad_norm_var": 73.778125,
      "learning_rate": 9.946787135996263e-05,
      "loss": 7.6988,
      "loss/crossentropy": 1.978414911031723,
      "loss/hidden": 3.618359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22136187348514796,
      "step": 20490
    },
    {
      "epoch": 0.6833333333333333,
      "grad_norm": 30.25,
      "grad_norm_var": 13.6369140625,
      "learning_rate": 9.94459753267812e-05,
      "loss": 7.9084,
      "loss/crossentropy": 2.1078326418995856,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20318037196993827,
      "step": 20500
    },
    {
      "epoch": 0.6836666666666666,
      "grad_norm": 28.625,
      "grad_norm_var": 15.780143229166667,
      "learning_rate": 9.942364062976687e-05,
      "loss": 7.8032,
      "loss/crossentropy": 2.143668609857559,
      "loss/hidden": 3.65703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21416857857257127,
      "step": 20510
    },
    {
      "epoch": 0.684,
      "grad_norm": 33.0,
      "grad_norm_var": 3.283124096840447e+18,
      "learning_rate": 9.940086748935406e-05,
      "loss": 7.8061,
      "loss/crossentropy": 1.9484010234475135,
      "loss/hidden": 3.91875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22513604983687402,
      "step": 20520
    },
    {
      "epoch": 0.6843333333333333,
      "grad_norm": 36.75,
      "grad_norm_var": 3.2831240977690655e+18,
      "learning_rate": 9.937765613030451e-05,
      "loss": 7.7232,
      "loss/crossentropy": 2.0105784103274345,
      "loss/hidden": 3.689453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20260654278099538,
      "step": 20530
    },
    {
      "epoch": 0.6846666666666666,
      "grad_norm": 34.75,
      "grad_norm_var": 11.262239583333333,
      "learning_rate": 9.935400678170492e-05,
      "loss": 7.808,
      "loss/crossentropy": 2.044108145684004,
      "loss/hidden": 3.599609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20465944344177842,
      "step": 20540
    },
    {
      "epoch": 0.685,
      "grad_norm": 32.0,
      "grad_norm_var": 13.480143229166666,
      "learning_rate": 9.932991967696483e-05,
      "loss": 7.7901,
      "loss/crossentropy": 2.155579614639282,
      "loss/hidden": 3.554296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21164779588580132,
      "step": 20550
    },
    {
      "epoch": 0.6853333333333333,
      "grad_norm": 49.25,
      "grad_norm_var": 34.08274739583333,
      "learning_rate": 9.930539505381426e-05,
      "loss": 7.8068,
      "loss/crossentropy": 2.2071971163153647,
      "loss/hidden": 3.643359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21646333318203687,
      "step": 20560
    },
    {
      "epoch": 0.6856666666666666,
      "grad_norm": 30.0,
      "grad_norm_var": 25.3353515625,
      "learning_rate": 9.928043315430128e-05,
      "loss": 7.7163,
      "loss/crossentropy": 2.0667000114917755,
      "loss/hidden": 3.5875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21009525340050458,
      "step": 20570
    },
    {
      "epoch": 0.686,
      "grad_norm": 28.75,
      "grad_norm_var": 8.79140625,
      "learning_rate": 9.925503422478984e-05,
      "loss": 7.7736,
      "loss/crossentropy": 2.207004964351654,
      "loss/hidden": 3.572265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21299835238605738,
      "step": 20580
    },
    {
      "epoch": 0.6863333333333334,
      "grad_norm": 31.875,
      "grad_norm_var": 18.999934895833334,
      "learning_rate": 9.922919851595707e-05,
      "loss": 7.864,
      "loss/crossentropy": 2.0951112896203994,
      "loss/hidden": 3.70546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2267284881323576,
      "step": 20590
    },
    {
      "epoch": 0.6866666666666666,
      "grad_norm": 33.5,
      "grad_norm_var": 20.902083333333334,
      "learning_rate": 9.920292628279099e-05,
      "loss": 7.7329,
      "loss/crossentropy": 2.0619683027267457,
      "loss/hidden": 3.67265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21196486745029688,
      "step": 20600
    },
    {
      "epoch": 0.687,
      "grad_norm": 31.5,
      "grad_norm_var": 9.529166666666667,
      "learning_rate": 9.917621778458796e-05,
      "loss": 7.7423,
      "loss/crossentropy": 2.003011184930801,
      "loss/hidden": 3.54765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19809650387614966,
      "step": 20610
    },
    {
      "epoch": 0.6873333333333334,
      "grad_norm": 31.125,
      "grad_norm_var": 2.4936848958333333,
      "learning_rate": 9.914907328495003e-05,
      "loss": 7.7587,
      "loss/crossentropy": 2.047277623414993,
      "loss/hidden": 3.625390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20881472658365965,
      "step": 20620
    },
    {
      "epoch": 0.6876666666666666,
      "grad_norm": 38.75,
      "grad_norm_var": 7.1369140625,
      "learning_rate": 9.91214930517825e-05,
      "loss": 7.8442,
      "loss/crossentropy": 2.047130857408047,
      "loss/hidden": 3.61953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2019510269165039,
      "step": 20630
    },
    {
      "epoch": 0.688,
      "grad_norm": 28.0,
      "grad_norm_var": 8.914518229166667,
      "learning_rate": 9.909347735729111e-05,
      "loss": 7.7182,
      "loss/crossentropy": 2.101368544995785,
      "loss/hidden": 3.518359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22426690720021725,
      "step": 20640
    },
    {
      "epoch": 0.6883333333333334,
      "grad_norm": 30.25,
      "grad_norm_var": 4.451497395833333,
      "learning_rate": 9.906502647797946e-05,
      "loss": 7.8233,
      "loss/crossentropy": 1.987765783816576,
      "loss/hidden": 3.694921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2175267556682229,
      "step": 20650
    },
    {
      "epoch": 0.6886666666666666,
      "grad_norm": 27.375,
      "grad_norm_var": 21.977083333333333,
      "learning_rate": 9.903614069464625e-05,
      "loss": 7.7182,
      "loss/crossentropy": 2.124682963639498,
      "loss/hidden": 3.592578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20821518804877998,
      "step": 20660
    },
    {
      "epoch": 0.689,
      "grad_norm": 31.75,
      "grad_norm_var": 7.99375,
      "learning_rate": 9.900682029238249e-05,
      "loss": 7.8463,
      "loss/crossentropy": 2.0248075053095818,
      "loss/hidden": 3.645703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22646026099100708,
      "step": 20670
    },
    {
      "epoch": 0.6893333333333334,
      "grad_norm": 31.625,
      "grad_norm_var": 5.612955729166667,
      "learning_rate": 9.897706556056872e-05,
      "loss": 7.9115,
      "loss/crossentropy": 2.0372205063700677,
      "loss/hidden": 3.763671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23688461929559707,
      "step": 20680
    },
    {
      "epoch": 0.6896666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 3.0962890625,
      "learning_rate": 9.894687679287211e-05,
      "loss": 7.7103,
      "loss/crossentropy": 1.9503981947898865,
      "loss/hidden": 3.5734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20171856675297023,
      "step": 20690
    },
    {
      "epoch": 0.69,
      "grad_norm": 32.25,
      "grad_norm_var": 1.8863932291666667,
      "learning_rate": 9.891625428724363e-05,
      "loss": 7.8373,
      "loss/crossentropy": 1.9779121212661266,
      "loss/hidden": 3.706640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20387490205466746,
      "step": 20700
    },
    {
      "epoch": 0.6903333333333334,
      "grad_norm": 28.75,
      "grad_norm_var": 2.567122395833333,
      "learning_rate": 9.888519834591505e-05,
      "loss": 7.8038,
      "loss/crossentropy": 2.0854588031768797,
      "loss/hidden": 3.56171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19318762868642808,
      "step": 20710
    },
    {
      "epoch": 0.6906666666666667,
      "grad_norm": 28.625,
      "grad_norm_var": 5.96640625,
      "learning_rate": 9.885370927539598e-05,
      "loss": 7.8213,
      "loss/crossentropy": 2.0958469033241274,
      "loss/hidden": 3.70078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21331228129565716,
      "step": 20720
    },
    {
      "epoch": 0.691,
      "grad_norm": 27.75,
      "grad_norm_var": 4.359375,
      "learning_rate": 9.88217873864708e-05,
      "loss": 7.7409,
      "loss/crossentropy": 2.0466203540563583,
      "loss/hidden": 3.627734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20199444703757763,
      "step": 20730
    },
    {
      "epoch": 0.6913333333333334,
      "grad_norm": 36.5,
      "grad_norm_var": 4.928059895833333,
      "learning_rate": 9.878943299419571e-05,
      "loss": 7.7546,
      "loss/crossentropy": 1.9727531932294369,
      "loss/hidden": 3.6375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20264990702271463,
      "step": 20740
    },
    {
      "epoch": 0.6916666666666667,
      "grad_norm": 30.125,
      "grad_norm_var": 7.667643229166667,
      "learning_rate": 9.875664641789545e-05,
      "loss": 7.7905,
      "loss/crossentropy": 1.9583543412387372,
      "loss/hidden": 3.551953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21098938062787057,
      "step": 20750
    },
    {
      "epoch": 0.692,
      "grad_norm": 37.25,
      "grad_norm_var": 2.155042766665373e+18,
      "learning_rate": 9.872342798116033e-05,
      "loss": 7.9216,
      "loss/crossentropy": 2.1403904750943186,
      "loss/hidden": 3.613671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20952636245638132,
      "step": 20760
    },
    {
      "epoch": 0.6923333333333334,
      "grad_norm": 8019509248.0,
      "grad_norm_var": 5.782152745791608e+18,
      "learning_rate": 9.86897780118429e-05,
      "loss": 7.6639,
      "loss/crossentropy": 2.111561615765095,
      "loss/hidden": 3.617578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2071863466873765,
      "step": 20770
    },
    {
      "epoch": 0.6926666666666667,
      "grad_norm": 27.375,
      "grad_norm_var": 4.0195330041945523e+18,
      "learning_rate": 9.865569684205477e-05,
      "loss": 7.8907,
      "loss/crossentropy": 2.1496111884713174,
      "loss/hidden": 3.567578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2130032055079937,
      "step": 20780
    },
    {
      "epoch": 0.693,
      "grad_norm": 30.75,
      "grad_norm_var": 4.995572916666666,
      "learning_rate": 9.862118480816331e-05,
      "loss": 7.8467,
      "loss/crossentropy": 2.1802233815193177,
      "loss/hidden": 3.70703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22255988270044327,
      "step": 20790
    },
    {
      "epoch": 0.6933333333333334,
      "grad_norm": 28.25,
      "grad_norm_var": 4.992643229166666,
      "learning_rate": 9.858624225078841e-05,
      "loss": 7.695,
      "loss/crossentropy": 2.0942075878381727,
      "loss/hidden": 3.585546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2092249434441328,
      "step": 20800
    },
    {
      "epoch": 0.6936666666666667,
      "grad_norm": 31.5,
      "grad_norm_var": 5.141666666666667,
      "learning_rate": 9.855086951479894e-05,
      "loss": 7.7499,
      "loss/crossentropy": 2.094904583692551,
      "loss/hidden": 3.546484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20001194700598718,
      "step": 20810
    },
    {
      "epoch": 0.694,
      "grad_norm": 7616856064.0,
      "grad_norm_var": 3.626030989921677e+18,
      "learning_rate": 9.851506694930958e-05,
      "loss": 7.8424,
      "loss/crossentropy": 2.24151945784688,
      "loss/hidden": 3.616796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21622586157172918,
      "step": 20820
    },
    {
      "epoch": 0.6943333333333334,
      "grad_norm": 35.0,
      "grad_norm_var": 3.6260309876366203e+18,
      "learning_rate": 9.847883490767716e-05,
      "loss": 7.7868,
      "loss/crossentropy": 2.077386400103569,
      "loss/hidden": 3.5921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21033733878284694,
      "step": 20830
    },
    {
      "epoch": 0.6946666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 25.595572916666665,
      "learning_rate": 9.844217374749732e-05,
      "loss": 7.7393,
      "loss/crossentropy": 2.1060422867536546,
      "loss/hidden": 3.43984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19694673204794527,
      "step": 20840
    },
    {
      "epoch": 0.695,
      "grad_norm": 30.125,
      "grad_norm_var": 2.786672612471944e+18,
      "learning_rate": 9.840508383060093e-05,
      "loss": 7.7705,
      "loss/crossentropy": 2.167571856081486,
      "loss/hidden": 3.524609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2048779834061861,
      "step": 20850
    },
    {
      "epoch": 0.6953333333333334,
      "grad_norm": 31.5,
      "grad_norm_var": 2.7866726123189217e+18,
      "learning_rate": 9.836756552305044e-05,
      "loss": 7.7599,
      "loss/crossentropy": 2.1368554055690767,
      "loss/hidden": 3.569921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20562508180737496,
      "step": 20860
    },
    {
      "epoch": 0.6956666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 3.823372395833333,
      "learning_rate": 9.832961919513646e-05,
      "loss": 7.7132,
      "loss/crossentropy": 2.0987789154052736,
      "loss/hidden": 3.653515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21177561171352863,
      "step": 20870
    },
    {
      "epoch": 0.696,
      "grad_norm": 30.5,
      "grad_norm_var": 8.401822916666667,
      "learning_rate": 9.829124522137386e-05,
      "loss": 7.7658,
      "loss/crossentropy": 2.0699412554502485,
      "loss/hidden": 3.548828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19380738902837039,
      "step": 20880
    },
    {
      "epoch": 0.6963333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 3.7056640625,
      "learning_rate": 9.825244398049834e-05,
      "loss": 7.8394,
      "loss/crossentropy": 2.1802071809768675,
      "loss/hidden": 3.55234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20943715162575244,
      "step": 20890
    },
    {
      "epoch": 0.6966666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 2.9302083333333333,
      "learning_rate": 9.821321585546244e-05,
      "loss": 7.801,
      "loss/crossentropy": 2.187861883640289,
      "loss/hidden": 3.58828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20320057701319455,
      "step": 20900
    },
    {
      "epoch": 0.697,
      "grad_norm": 33.75,
      "grad_norm_var": 2.439322916666667,
      "learning_rate": 9.817356123343193e-05,
      "loss": 7.8392,
      "loss/crossentropy": 2.143737843632698,
      "loss/hidden": 3.59609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21037317141890527,
      "step": 20910
    },
    {
      "epoch": 0.6973333333333334,
      "grad_norm": 34.5,
      "grad_norm_var": 5.75625,
      "learning_rate": 9.813348050578191e-05,
      "loss": 7.6046,
      "loss/crossentropy": 2.01915595009923,
      "loss/hidden": 3.496875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19461457710713148,
      "step": 20920
    },
    {
      "epoch": 0.6976666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 10.854166666666666,
      "learning_rate": 9.8092974068093e-05,
      "loss": 7.6391,
      "loss/crossentropy": 2.104771558940411,
      "loss/hidden": 3.622265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20720904739573598,
      "step": 20930
    },
    {
      "epoch": 0.698,
      "grad_norm": 31.625,
      "grad_norm_var": 28.412434895833332,
      "learning_rate": 9.805204232014738e-05,
      "loss": 7.7715,
      "loss/crossentropy": 2.0513715844601395,
      "loss/hidden": 3.775,
      "loss/jsd": 0.0,
      "loss/logits": 0.20735556054860355,
      "step": 20940
    },
    {
      "epoch": 0.6983333333333334,
      "grad_norm": 29.625,
      "grad_norm_var": 28.428059895833332,
      "learning_rate": 9.801068566592485e-05,
      "loss": 7.7446,
      "loss/crossentropy": 2.141914916783571,
      "loss/hidden": 3.487109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20847442476078867,
      "step": 20950
    },
    {
      "epoch": 0.6986666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 4.476822916666666,
      "learning_rate": 9.796890451359894e-05,
      "loss": 7.8283,
      "loss/crossentropy": 2.0166680470108984,
      "loss/hidden": 3.70078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2056173078715801,
      "step": 20960
    },
    {
      "epoch": 0.699,
      "grad_norm": 28.625,
      "grad_norm_var": 4.481705729166666,
      "learning_rate": 9.792669927553271e-05,
      "loss": 7.6997,
      "loss/crossentropy": 2.0283680982887744,
      "loss/hidden": 3.576171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2040084034204483,
      "step": 20970
    },
    {
      "epoch": 0.6993333333333334,
      "grad_norm": 32.25,
      "grad_norm_var": 15.808072916666667,
      "learning_rate": 9.788407036827486e-05,
      "loss": 7.8985,
      "loss/crossentropy": 2.110441932082176,
      "loss/hidden": 3.62734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2083257043734193,
      "step": 20980
    },
    {
      "epoch": 0.6996666666666667,
      "grad_norm": 31.0,
      "grad_norm_var": 13.953125,
      "learning_rate": 9.784101821255546e-05,
      "loss": 7.8639,
      "loss/crossentropy": 2.1061757408082484,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2161664988845587,
      "step": 20990
    },
    {
      "epoch": 0.7,
      "grad_norm": 30.25,
      "grad_norm_var": 2.733268229166667,
      "learning_rate": 9.779754323328192e-05,
      "loss": 7.6809,
      "loss/crossentropy": 1.968663776665926,
      "loss/hidden": 3.59453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20843339152634144,
      "step": 21000
    },
    {
      "epoch": 0.7003333333333334,
      "grad_norm": 33.75,
      "grad_norm_var": 4.762239583333334,
      "learning_rate": 9.775364585953473e-05,
      "loss": 7.7791,
      "loss/crossentropy": 2.0461377993226053,
      "loss/hidden": 3.669140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20731903873384,
      "step": 21010
    },
    {
      "epoch": 0.7006666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 5.0916015625,
      "learning_rate": 9.770932652456326e-05,
      "loss": 7.7952,
      "loss/crossentropy": 2.0643589437007903,
      "loss/hidden": 3.619140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2156803973019123,
      "step": 21020
    },
    {
      "epoch": 0.701,
      "grad_norm": 28.875,
      "grad_norm_var": 5.80625,
      "learning_rate": 9.766458566578143e-05,
      "loss": 7.773,
      "loss/crossentropy": 2.0716071873903275,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2185486238449812,
      "step": 21030
    },
    {
      "epoch": 0.7013333333333334,
      "grad_norm": 38.0,
      "grad_norm_var": 6.7322265625,
      "learning_rate": 9.76194237247635e-05,
      "loss": 7.728,
      "loss/crossentropy": 2.182681308686733,
      "loss/hidden": 3.44375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1979642266407609,
      "step": 21040
    },
    {
      "epoch": 0.7016666666666667,
      "grad_norm": 30.25,
      "grad_norm_var": 6.1759765625,
      "learning_rate": 9.757384114723954e-05,
      "loss": 7.7438,
      "loss/crossentropy": 2.0533548787236215,
      "loss/hidden": 3.613671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21022803112864494,
      "step": 21050
    },
    {
      "epoch": 0.702,
      "grad_norm": 29.5,
      "grad_norm_var": 3.6103515625,
      "learning_rate": 9.752783838309123e-05,
      "loss": 7.7947,
      "loss/crossentropy": 2.148482698202133,
      "loss/hidden": 3.63828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2157578205689788,
      "step": 21060
    },
    {
      "epoch": 0.7023333333333334,
      "grad_norm": 27.875,
      "grad_norm_var": 2.6416666666666666,
      "learning_rate": 9.748141588634725e-05,
      "loss": 7.7997,
      "loss/crossentropy": 1.9508283972740172,
      "loss/hidden": 3.637890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20378196705132723,
      "step": 21070
    },
    {
      "epoch": 0.7026666666666667,
      "grad_norm": 31.75,
      "grad_norm_var": 23.627083333333335,
      "learning_rate": 9.743457411517892e-05,
      "loss": 7.8502,
      "loss/crossentropy": 2.063946034014225,
      "loss/hidden": 3.628515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22184212561696767,
      "step": 21080
    },
    {
      "epoch": 0.703,
      "grad_norm": 34.0,
      "grad_norm_var": 2.7603515625,
      "learning_rate": 9.738731353189558e-05,
      "loss": 7.7532,
      "loss/crossentropy": 1.9890851199626922,
      "loss/hidden": 3.553125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19615612691268325,
      "step": 21090
    },
    {
      "epoch": 0.7033333333333334,
      "grad_norm": 30.0,
      "grad_norm_var": 2.9686848958333334,
      "learning_rate": 9.733963460294015e-05,
      "loss": 7.8208,
      "loss/crossentropy": 1.9296169601380826,
      "loss/hidden": 3.633984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2059748636558652,
      "step": 21100
    },
    {
      "epoch": 0.7036666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 41.9806640625,
      "learning_rate": 9.729153779888439e-05,
      "loss": 7.7385,
      "loss/crossentropy": 1.9927678152918815,
      "loss/hidden": 3.566796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19540305892005563,
      "step": 21110
    },
    {
      "epoch": 0.704,
      "grad_norm": 28.75,
      "grad_norm_var": 2.295768229166667,
      "learning_rate": 9.724302359442434e-05,
      "loss": 7.8334,
      "loss/crossentropy": 2.0166243493556975,
      "loss/hidden": 3.549609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20116372499614954,
      "step": 21120
    },
    {
      "epoch": 0.7043333333333334,
      "grad_norm": 29.125,
      "grad_norm_var": 1.8184895833333334,
      "learning_rate": 9.719409246837561e-05,
      "loss": 7.8302,
      "loss/crossentropy": 1.9066402643918992,
      "loss/hidden": 3.54140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1955884052440524,
      "step": 21130
    },
    {
      "epoch": 0.7046666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 14619.393489583334,
      "learning_rate": 9.714474490366866e-05,
      "loss": 7.917,
      "loss/crossentropy": 1.9063568994402886,
      "loss/hidden": 3.60859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1982713321223855,
      "step": 21140
    },
    {
      "epoch": 0.705,
      "grad_norm": 28.375,
      "grad_norm_var": 14504.148958333333,
      "learning_rate": 9.709498138734405e-05,
      "loss": 7.7312,
      "loss/crossentropy": 1.9017325207591056,
      "loss/hidden": 3.636328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19890787806361915,
      "step": 21150
    },
    {
      "epoch": 0.7053333333333334,
      "grad_norm": 28.875,
      "grad_norm_var": 19.811458333333334,
      "learning_rate": 9.704480241054755e-05,
      "loss": 7.6471,
      "loss/crossentropy": 1.9751385256648064,
      "loss/hidden": 3.6046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20594419166445732,
      "step": 21160
    },
    {
      "epoch": 0.7056666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 0.9884765625,
      "learning_rate": 9.699420846852544e-05,
      "loss": 7.7681,
      "loss/crossentropy": 2.0237425029277802,
      "loss/hidden": 3.624609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2027163729071617,
      "step": 21170
    },
    {
      "epoch": 0.706,
      "grad_norm": 29.5,
      "grad_norm_var": 0.8358723958333333,
      "learning_rate": 9.694320006061949e-05,
      "loss": 7.706,
      "loss/crossentropy": 1.9728805258870126,
      "loss/hidden": 3.50625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20415272628888487,
      "step": 21180
    },
    {
      "epoch": 0.7063333333333334,
      "grad_norm": 31.75,
      "grad_norm_var": 1.5285807291666667,
      "learning_rate": 9.689177769026211e-05,
      "loss": 7.7188,
      "loss/crossentropy": 2.114629329741001,
      "loss/hidden": 3.634375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2147956196218729,
      "step": 21190
    },
    {
      "epoch": 0.7066666666666667,
      "grad_norm": 31.625,
      "grad_norm_var": 14.480989583333333,
      "learning_rate": 9.683994186497132e-05,
      "loss": 7.8607,
      "loss/crossentropy": 2.210577738285065,
      "loss/hidden": 3.62578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22065361309796572,
      "step": 21200
    },
    {
      "epoch": 0.707,
      "grad_norm": 28.75,
      "grad_norm_var": 15.8478515625,
      "learning_rate": 9.678769309634579e-05,
      "loss": 7.7987,
      "loss/crossentropy": 2.1382463231682776,
      "loss/hidden": 3.630078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20682547576725482,
      "step": 21210
    },
    {
      "epoch": 0.7073333333333334,
      "grad_norm": 50.0,
      "grad_norm_var": 27.705989583333334,
      "learning_rate": 9.673503190005977e-05,
      "loss": 7.7034,
      "loss/crossentropy": 1.9322528079152108,
      "loss/hidden": 3.531640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19704128410667182,
      "step": 21220
    },
    {
      "epoch": 0.7076666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 34.70358072916667,
      "learning_rate": 9.6681958795858e-05,
      "loss": 7.7049,
      "loss/crossentropy": 2.050449796766043,
      "loss/hidden": 3.621484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23184078792110085,
      "step": 21230
    },
    {
      "epoch": 0.708,
      "grad_norm": 31.375,
      "grad_norm_var": 2.04140625,
      "learning_rate": 9.66284743075506e-05,
      "loss": 7.8191,
      "loss/crossentropy": 2.2278542831540107,
      "loss/hidden": 3.62265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22254880461841822,
      "step": 21240
    },
    {
      "epoch": 0.7083333333333334,
      "grad_norm": 31.375,
      "grad_norm_var": 6.119791666666667,
      "learning_rate": 9.657457896300791e-05,
      "loss": 7.7321,
      "loss/crossentropy": 2.144664096832275,
      "loss/hidden": 3.49453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20551785565912722,
      "step": 21250
    },
    {
      "epoch": 0.7086666666666667,
      "grad_norm": 31.0,
      "grad_norm_var": 9.594791666666667,
      "learning_rate": 9.652027329415517e-05,
      "loss": 7.7328,
      "loss/crossentropy": 1.999681544303894,
      "loss/hidden": 3.6890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2114706352353096,
      "step": 21260
    },
    {
      "epoch": 0.709,
      "grad_norm": 28.375,
      "grad_norm_var": 268.0978515625,
      "learning_rate": 9.646555783696743e-05,
      "loss": 7.8,
      "loss/crossentropy": 2.0811921998858454,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21599450353533028,
      "step": 21270
    },
    {
      "epoch": 0.7093333333333334,
      "grad_norm": 28.5,
      "grad_norm_var": 303.81458333333336,
      "learning_rate": 9.641043313146417e-05,
      "loss": 7.9496,
      "loss/crossentropy": 2.1750354193151,
      "loss/hidden": 3.63046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2116277886554599,
      "step": 21280
    },
    {
      "epoch": 0.7096666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 169.38125,
      "learning_rate": 9.635489972170397e-05,
      "loss": 7.6372,
      "loss/crossentropy": 2.006293947994709,
      "loss/hidden": 3.588671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19880817979574203,
      "step": 21290
    },
    {
      "epoch": 0.71,
      "grad_norm": 28.75,
      "grad_norm_var": 14.073958333333334,
      "learning_rate": 9.629895815577916e-05,
      "loss": 7.7662,
      "loss/crossentropy": 2.0567120373249055,
      "loss/hidden": 3.612890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2118833553045988,
      "step": 21300
    },
    {
      "epoch": 0.7103333333333334,
      "grad_norm": 28.75,
      "grad_norm_var": 14.435416666666667,
      "learning_rate": 9.62426089858104e-05,
      "loss": 7.7359,
      "loss/crossentropy": 2.0882872194051743,
      "loss/hidden": 3.63359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19910078253597022,
      "step": 21310
    },
    {
      "epoch": 0.7106666666666667,
      "grad_norm": 31.125,
      "grad_norm_var": 8.761393229166666,
      "learning_rate": 9.618585276794129e-05,
      "loss": 7.7853,
      "loss/crossentropy": 2.0896404944360256,
      "loss/hidden": 3.64921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22682881793007253,
      "step": 21320
    },
    {
      "epoch": 0.711,
      "grad_norm": 33.25,
      "grad_norm_var": 23.874739583333334,
      "learning_rate": 9.612869006233275e-05,
      "loss": 7.9966,
      "loss/crossentropy": 2.1692073047161102,
      "loss/hidden": 3.61796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2034358810633421,
      "step": 21330
    },
    {
      "epoch": 0.7113333333333334,
      "grad_norm": 32.25,
      "grad_norm_var": 18.7791015625,
      "learning_rate": 9.607112143315763e-05,
      "loss": 7.8539,
      "loss/crossentropy": 2.0817694112658502,
      "loss/hidden": 3.56171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2055924255400896,
      "step": 21340
    },
    {
      "epoch": 0.7116666666666667,
      "grad_norm": 31.625,
      "grad_norm_var": 9.392643229166667,
      "learning_rate": 9.601314744859504e-05,
      "loss": 7.5976,
      "loss/crossentropy": 2.005814277380705,
      "loss/hidden": 3.581640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2026340899989009,
      "step": 21350
    },
    {
      "epoch": 0.712,
      "grad_norm": 31.625,
      "grad_norm_var": 3.4900390625,
      "learning_rate": 9.595476868082481e-05,
      "loss": 7.8636,
      "loss/crossentropy": 1.9804232444614172,
      "loss/hidden": 3.69453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21351769701577722,
      "step": 21360
    },
    {
      "epoch": 0.7123333333333334,
      "grad_norm": 31.0,
      "grad_norm_var": 2.987434895833333,
      "learning_rate": 9.589598570602181e-05,
      "loss": 7.858,
      "loss/crossentropy": 2.1446668222546577,
      "loss/hidden": 3.575390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20793895637616516,
      "step": 21370
    },
    {
      "epoch": 0.7126666666666667,
      "grad_norm": 30.25,
      "grad_norm_var": 120.17545572916667,
      "learning_rate": 9.583679910435026e-05,
      "loss": 7.8126,
      "loss/crossentropy": 2.034381502121687,
      "loss/hidden": 3.66328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20835008025169371,
      "step": 21380
    },
    {
      "epoch": 0.713,
      "grad_norm": 34.25,
      "grad_norm_var": 112.87708333333333,
      "learning_rate": 9.577720945995803e-05,
      "loss": 7.8897,
      "loss/crossentropy": 2.081572139263153,
      "loss/hidden": 3.615625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21697744037956,
      "step": 21390
    },
    {
      "epoch": 0.7133333333333334,
      "grad_norm": 28.875,
      "grad_norm_var": 119.82493489583334,
      "learning_rate": 9.571721736097089e-05,
      "loss": 7.6045,
      "loss/crossentropy": 2.171599693596363,
      "loss/hidden": 3.445703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19405515491962433,
      "step": 21400
    },
    {
      "epoch": 0.7136666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 20.370247395833335,
      "learning_rate": 9.565682339948657e-05,
      "loss": 7.8137,
      "loss/crossentropy": 2.099457284808159,
      "loss/hidden": 3.64609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20623879097402095,
      "step": 21410
    },
    {
      "epoch": 0.714,
      "grad_norm": 29.0,
      "grad_norm_var": 5.495768229166667,
      "learning_rate": 9.559602817156913e-05,
      "loss": 7.6481,
      "loss/crossentropy": 2.1219607055187226,
      "loss/hidden": 3.60234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20431581195443868,
      "step": 21420
    },
    {
      "epoch": 0.7143333333333334,
      "grad_norm": 29.25,
      "grad_norm_var": 2.7,
      "learning_rate": 9.553483227724292e-05,
      "loss": 7.7096,
      "loss/crossentropy": 2.0621854946017266,
      "loss/hidden": 3.661328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21732638962566853,
      "step": 21430
    },
    {
      "epoch": 0.7146666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 2.5171223958333333,
      "learning_rate": 9.54732363204867e-05,
      "loss": 7.5899,
      "loss/crossentropy": 2.1101118355989454,
      "loss/hidden": 3.526171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20486003924161195,
      "step": 21440
    },
    {
      "epoch": 0.715,
      "grad_norm": 29.0,
      "grad_norm_var": 4.364518229166666,
      "learning_rate": 9.54112409092277e-05,
      "loss": 7.7143,
      "loss/crossentropy": 2.039649748057127,
      "loss/hidden": 3.55,
      "loss/jsd": 0.0,
      "loss/logits": 0.20175143275409937,
      "step": 21450
    },
    {
      "epoch": 0.7153333333333334,
      "grad_norm": 30.75,
      "grad_norm_var": 3.331184895833333,
      "learning_rate": 9.534884665533563e-05,
      "loss": 7.6551,
      "loss/crossentropy": 2.087866473197937,
      "loss/hidden": 3.572265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20887105632573366,
      "step": 21460
    },
    {
      "epoch": 0.7156666666666667,
      "grad_norm": 31.375,
      "grad_norm_var": 3.495247395833333,
      "learning_rate": 9.528605417461653e-05,
      "loss": 7.6824,
      "loss/crossentropy": 1.9937364026904105,
      "loss/hidden": 3.440625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19099010657519103,
      "step": 21470
    },
    {
      "epoch": 0.716,
      "grad_norm": 28.625,
      "grad_norm_var": 2.4607245902591734e+18,
      "learning_rate": 9.522286408680687e-05,
      "loss": 7.7331,
      "loss/crossentropy": 2.0533931560814382,
      "loss/hidden": 3.495703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19130754433572292,
      "step": 21480
    },
    {
      "epoch": 0.7163333333333334,
      "grad_norm": 28.875,
      "grad_norm_var": 6.831430466374188e+18,
      "learning_rate": 9.51592770155673e-05,
      "loss": 7.6974,
      "loss/crossentropy": 2.0633395805954935,
      "loss/hidden": 3.654296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.220349186565727,
      "step": 21490
    },
    {
      "epoch": 0.7166666666666667,
      "grad_norm": 54.25,
      "grad_norm_var": 38.76640625,
      "learning_rate": 9.509529358847655e-05,
      "loss": 7.6228,
      "loss/crossentropy": 1.8947391845285892,
      "loss/hidden": 3.4703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19983619190752505,
      "step": 21500
    },
    {
      "epoch": 0.717,
      "grad_norm": 31.75,
      "grad_norm_var": 38.83326822916667,
      "learning_rate": 9.503091443702522e-05,
      "loss": 7.7001,
      "loss/crossentropy": 2.0377241536974906,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19533433131873607,
      "step": 21510
    },
    {
      "epoch": 0.7173333333333334,
      "grad_norm": 29.625,
      "grad_norm_var": 3.3018229166666666,
      "learning_rate": 9.496614019660951e-05,
      "loss": 7.803,
      "loss/crossentropy": 2.1326826021075247,
      "loss/hidden": 3.651171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2108999377116561,
      "step": 21520
    },
    {
      "epoch": 0.7176666666666667,
      "grad_norm": 33.75,
      "grad_norm_var": 6.46640625,
      "learning_rate": 9.490097150652505e-05,
      "loss": 7.7089,
      "loss/crossentropy": 1.8233733780682087,
      "loss/hidden": 3.501171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17455916814506053,
      "step": 21530
    },
    {
      "epoch": 0.718,
      "grad_norm": 29.125,
      "grad_norm_var": 5.584309895833333,
      "learning_rate": 9.483540900996049e-05,
      "loss": 7.7816,
      "loss/crossentropy": 2.222658357024193,
      "loss/hidden": 3.5171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20714823082089423,
      "step": 21540
    },
    {
      "epoch": 0.7183333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 7.22890625,
      "learning_rate": 9.476945335399122e-05,
      "loss": 7.76,
      "loss/crossentropy": 2.0847948037087916,
      "loss/hidden": 3.44765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19452479667961597,
      "step": 21550
    },
    {
      "epoch": 0.7186666666666667,
      "grad_norm": 59.0,
      "grad_norm_var": 2.899825550166275e+18,
      "learning_rate": 9.47031051895729e-05,
      "loss": 7.7464,
      "loss/crossentropy": 2.0613483414053917,
      "loss/hidden": 3.583984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2091040827333927,
      "step": 21560
    },
    {
      "epoch": 0.719,
      "grad_norm": 157.0,
      "grad_norm_var": 1006.6166015625,
      "learning_rate": 9.463636517153517e-05,
      "loss": 7.8657,
      "loss/crossentropy": 2.310398209095001,
      "loss/hidden": 3.470703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2095829950645566,
      "step": 21570
    },
    {
      "epoch": 0.7193333333333334,
      "grad_norm": 27.25,
      "grad_norm_var": 999.0166015625,
      "learning_rate": 9.456923395857503e-05,
      "loss": 7.7325,
      "loss/crossentropy": 1.9690666690468788,
      "loss/hidden": 3.622265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2094871997833252,
      "step": 21580
    },
    {
      "epoch": 0.7196666666666667,
      "grad_norm": 31.125,
      "grad_norm_var": 12.08515625,
      "learning_rate": 9.450171221325049e-05,
      "loss": 7.6418,
      "loss/crossentropy": 1.9917885288596153,
      "loss/hidden": 3.512109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1998442027717829,
      "step": 21590
    },
    {
      "epoch": 0.72,
      "grad_norm": 28.25,
      "grad_norm_var": 5.362434895833333,
      "learning_rate": 9.443380060197387e-05,
      "loss": 7.7914,
      "loss/crossentropy": 2.0604188472032545,
      "loss/hidden": 3.528515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20265566650778055,
      "step": 21600
    },
    {
      "epoch": 0.7203333333333334,
      "grad_norm": 114.5,
      "grad_norm_var": 447.34973958333336,
      "learning_rate": 9.436549979500539e-05,
      "loss": 7.693,
      "loss/crossentropy": 2.003858245909214,
      "loss/hidden": 3.709375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22414386905729772,
      "step": 21610
    },
    {
      "epoch": 0.7206666666666667,
      "grad_norm": 26.625,
      "grad_norm_var": 453.5893229166667,
      "learning_rate": 9.42968104664464e-05,
      "loss": 7.6233,
      "loss/crossentropy": 2.0694996997714044,
      "loss/hidden": 3.617578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.205183663405478,
      "step": 21620
    },
    {
      "epoch": 0.721,
      "grad_norm": 33.25,
      "grad_norm_var": 13.485416666666667,
      "learning_rate": 9.422773329423292e-05,
      "loss": 7.7632,
      "loss/crossentropy": 2.0694395408034323,
      "loss/hidden": 3.654296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20871220286935568,
      "step": 21630
    },
    {
      "epoch": 0.7213333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 3.9759765625,
      "learning_rate": 9.415826896012865e-05,
      "loss": 7.6489,
      "loss/crossentropy": 1.975140118598938,
      "loss/hidden": 3.442578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20482220761477948,
      "step": 21640
    },
    {
      "epoch": 0.7216666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 3.7978515625,
      "learning_rate": 9.408841814971861e-05,
      "loss": 7.6203,
      "loss/crossentropy": 2.039801698923111,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19393778946250678,
      "step": 21650
    },
    {
      "epoch": 0.722,
      "grad_norm": 31.125,
      "grad_norm_var": 15.802018229166666,
      "learning_rate": 9.401818155240205e-05,
      "loss": 7.7741,
      "loss/crossentropy": 2.119242195785046,
      "loss/hidden": 3.559765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20300054959952832,
      "step": 21660
    },
    {
      "epoch": 0.7223333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 15.137239583333333,
      "learning_rate": 9.394755986138586e-05,
      "loss": 7.7166,
      "loss/crossentropy": 1.8970364406704903,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20859413947910072,
      "step": 21670
    },
    {
      "epoch": 0.7226666666666667,
      "grad_norm": 27.125,
      "grad_norm_var": 2.8337890625,
      "learning_rate": 9.387655377367758e-05,
      "loss": 7.6903,
      "loss/crossentropy": 2.132764849066734,
      "loss/hidden": 3.533203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2067256074398756,
      "step": 21680
    },
    {
      "epoch": 0.723,
      "grad_norm": 28.5,
      "grad_norm_var": 21.7197265625,
      "learning_rate": 9.380516399007868e-05,
      "loss": 7.6587,
      "loss/crossentropy": 1.9144255444407463,
      "loss/hidden": 3.6828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2001453947275877,
      "step": 21690
    },
    {
      "epoch": 0.7233333333333334,
      "grad_norm": 30.0,
      "grad_norm_var": 5.901822916666666,
      "learning_rate": 9.373339121517747e-05,
      "loss": 7.7691,
      "loss/crossentropy": 2.2400635674595835,
      "loss/hidden": 3.60234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2141938941553235,
      "step": 21700
    },
    {
      "epoch": 0.7236666666666667,
      "grad_norm": 28.125,
      "grad_norm_var": 3.468053159442855e+18,
      "learning_rate": 9.366123615734227e-05,
      "loss": 7.7074,
      "loss/crossentropy": 2.0811144724488257,
      "loss/hidden": 3.775,
      "loss/jsd": 0.0,
      "loss/logits": 0.1989194665104151,
      "step": 21710
    },
    {
      "epoch": 0.724,
      "grad_norm": 28.125,
      "grad_norm_var": 5.074739583333334,
      "learning_rate": 9.358869952871436e-05,
      "loss": 7.6993,
      "loss/crossentropy": 2.1098939001560213,
      "loss/hidden": 3.491015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20545907951891423,
      "step": 21720
    },
    {
      "epoch": 0.7243333333333334,
      "grad_norm": 30.875,
      "grad_norm_var": 5.959375,
      "learning_rate": 9.351578204520099e-05,
      "loss": 7.5884,
      "loss/crossentropy": 1.8791275858879088,
      "loss/hidden": 3.540625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20307840630412102,
      "step": 21730
    },
    {
      "epoch": 0.7246666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 3.1426432291666666,
      "learning_rate": 9.344248442646829e-05,
      "loss": 7.6224,
      "loss/crossentropy": 2.0195631198585033,
      "loss/hidden": 3.648828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19278614791110157,
      "step": 21740
    },
    {
      "epoch": 0.725,
      "grad_norm": 28.25,
      "grad_norm_var": 2.1442057291666665,
      "learning_rate": 9.336880739593416e-05,
      "loss": 7.535,
      "loss/crossentropy": 2.1503761291503904,
      "loss/hidden": 3.5609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2019724454730749,
      "step": 21750
    },
    {
      "epoch": 0.7253333333333334,
      "grad_norm": 25.125,
      "grad_norm_var": 5.632291666666666,
      "learning_rate": 9.329475168076114e-05,
      "loss": 7.6548,
      "loss/crossentropy": 2.0659672379493714,
      "loss/hidden": 3.661328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21330699287354946,
      "step": 21760
    },
    {
      "epoch": 0.7256666666666667,
      "grad_norm": 30.5,
      "grad_norm_var": 9.28125,
      "learning_rate": 9.322031801184925e-05,
      "loss": 7.6069,
      "loss/crossentropy": 2.1512291483581065,
      "loss/hidden": 3.644140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21503518372774125,
      "step": 21770
    },
    {
      "epoch": 0.726,
      "grad_norm": 29.875,
      "grad_norm_var": 7.08125,
      "learning_rate": 9.314550712382875e-05,
      "loss": 7.6104,
      "loss/crossentropy": 2.112006691843271,
      "loss/hidden": 3.452734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19404661422595382,
      "step": 21780
    },
    {
      "epoch": 0.7263333333333334,
      "grad_norm": 28.75,
      "grad_norm_var": 3.4056640625,
      "learning_rate": 9.307031975505291e-05,
      "loss": 7.672,
      "loss/crossentropy": 2.076837729662657,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1984027072787285,
      "step": 21790
    },
    {
      "epoch": 0.7266666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 1.8900390625,
      "learning_rate": 9.299475664759069e-05,
      "loss": 7.6271,
      "loss/crossentropy": 2.0399362690746785,
      "loss/hidden": 3.519921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19836630206555128,
      "step": 21800
    },
    {
      "epoch": 0.727,
      "grad_norm": 33.0,
      "grad_norm_var": 1.9166666666666667,
      "learning_rate": 9.291881854721946e-05,
      "loss": 7.6745,
      "loss/crossentropy": 2.128536182641983,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21894673127681016,
      "step": 21810
    },
    {
      "epoch": 0.7273333333333334,
      "grad_norm": 29.125,
      "grad_norm_var": 1.7624348958333333,
      "learning_rate": 9.28425062034176e-05,
      "loss": 7.6159,
      "loss/crossentropy": 2.0389281518757345,
      "loss/hidden": 3.598828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21084144692867995,
      "step": 21820
    },
    {
      "epoch": 0.7276666666666667,
      "grad_norm": 29.125,
      "grad_norm_var": 2.925,
      "learning_rate": 9.276582036935717e-05,
      "loss": 7.6311,
      "loss/crossentropy": 2.02659250497818,
      "loss/hidden": 3.496484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21077424064278602,
      "step": 21830
    },
    {
      "epoch": 0.728,
      "grad_norm": 29.375,
      "grad_norm_var": 3.093489583333333,
      "learning_rate": 9.268876180189639e-05,
      "loss": 7.627,
      "loss/crossentropy": 2.014843727648258,
      "loss/hidden": 3.561328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21272912081331014,
      "step": 21840
    },
    {
      "epoch": 0.7283333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 5.7712890625,
      "learning_rate": 9.261133126157218e-05,
      "loss": 7.7058,
      "loss/crossentropy": 2.11625085696578,
      "loss/hidden": 3.67109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2178550474345684,
      "step": 21850
    },
    {
      "epoch": 0.7286666666666667,
      "grad_norm": 29.125,
      "grad_norm_var": 1.3955729166666666,
      "learning_rate": 9.253352951259271e-05,
      "loss": 7.7112,
      "loss/crossentropy": 2.1387905418872832,
      "loss/hidden": 3.59140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2076106144115329,
      "step": 21860
    },
    {
      "epoch": 0.729,
      "grad_norm": 29.75,
      "grad_norm_var": 1.2997395833333334,
      "learning_rate": 9.245535732282986e-05,
      "loss": 7.6483,
      "loss/crossentropy": 2.1955421969294546,
      "loss/hidden": 3.541796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21497300919145346,
      "step": 21870
    },
    {
      "epoch": 0.7293333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 2.2643229166666665,
      "learning_rate": 9.237681546381157e-05,
      "loss": 7.6649,
      "loss/crossentropy": 2.0390606805682183,
      "loss/hidden": 3.533203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1902286982163787,
      "step": 21880
    },
    {
      "epoch": 0.7296666666666667,
      "grad_norm": 30.625,
      "grad_norm_var": 2.988997395833333,
      "learning_rate": 9.229790471071429e-05,
      "loss": 7.7516,
      "loss/crossentropy": 2.15336195230484,
      "loss/hidden": 3.5890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2047728981822729,
      "step": 21890
    },
    {
      "epoch": 0.73,
      "grad_norm": 30.0,
      "grad_norm_var": 1.6747395833333334,
      "learning_rate": 9.221862584235528e-05,
      "loss": 7.7046,
      "loss/crossentropy": 2.0997920632362366,
      "loss/hidden": 3.599609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20689391866326332,
      "step": 21900
    },
    {
      "epoch": 0.7303333333333333,
      "grad_norm": 31.375,
      "grad_norm_var": 2.26640625,
      "learning_rate": 9.213897964118499e-05,
      "loss": 7.5344,
      "loss/crossentropy": 2.067221947014332,
      "loss/hidden": 3.539453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19843466561287643,
      "step": 21910
    },
    {
      "epoch": 0.7306666666666667,
      "grad_norm": 29.125,
      "grad_norm_var": 6.4853515625,
      "learning_rate": 9.205896689327923e-05,
      "loss": 7.737,
      "loss/crossentropy": 2.1428965769708155,
      "loss/hidden": 3.585546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2188850357197225,
      "step": 21920
    },
    {
      "epoch": 0.731,
      "grad_norm": 31.5,
      "grad_norm_var": 7.158333333333333,
      "learning_rate": 9.197858838833157e-05,
      "loss": 7.6879,
      "loss/crossentropy": 1.9083328664302825,
      "loss/hidden": 3.662109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20349522549659013,
      "step": 21930
    },
    {
      "epoch": 0.7313333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 2.8212890625,
      "learning_rate": 9.189784491964536e-05,
      "loss": 7.6476,
      "loss/crossentropy": 1.9690759629011154,
      "loss/hidden": 3.66640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21341784493997693,
      "step": 21940
    },
    {
      "epoch": 0.7316666666666667,
      "grad_norm": 26.875,
      "grad_norm_var": 3.5497395833333334,
      "learning_rate": 9.181673728412605e-05,
      "loss": 7.6774,
      "loss/crossentropy": 2.0544747814536093,
      "loss/hidden": 3.682421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21329349987208843,
      "step": 21950
    },
    {
      "epoch": 0.732,
      "grad_norm": 27.875,
      "grad_norm_var": 30.809830729166666,
      "learning_rate": 9.173526628227329e-05,
      "loss": 7.6327,
      "loss/crossentropy": 2.000888040661812,
      "loss/hidden": 3.57109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20834028851240874,
      "step": 21960
    },
    {
      "epoch": 0.7323333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 3.89765625,
      "learning_rate": 9.165343271817292e-05,
      "loss": 7.7272,
      "loss/crossentropy": 2.2294601082801817,
      "loss/hidden": 3.483203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20684596356004475,
      "step": 21970
    },
    {
      "epoch": 0.7326666666666667,
      "grad_norm": 35.75,
      "grad_norm_var": 3.42265625,
      "learning_rate": 9.157123739948924e-05,
      "loss": 7.6675,
      "loss/crossentropy": 2.032812249660492,
      "loss/hidden": 3.5453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21877431515604256,
      "step": 21980
    },
    {
      "epoch": 0.733,
      "grad_norm": 31.625,
      "grad_norm_var": 3.84140625,
      "learning_rate": 9.148868113745681e-05,
      "loss": 7.7739,
      "loss/crossentropy": 1.9926821939647197,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20471897087991237,
      "step": 21990
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 29.375,
      "grad_norm_var": 4.79140625,
      "learning_rate": 9.140576474687264e-05,
      "loss": 7.6612,
      "loss/crossentropy": 2.0667272046208383,
      "loss/hidden": 3.5640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2066561786457896,
      "step": 22000
    },
    {
      "epoch": 0.7336666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 5.839518229166667,
      "learning_rate": 9.132248904608801e-05,
      "loss": 7.678,
      "loss/crossentropy": 2.0169097036123276,
      "loss/hidden": 3.441015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1938495047390461,
      "step": 22010
    },
    {
      "epoch": 0.734,
      "grad_norm": 28.25,
      "grad_norm_var": 1.7587890625,
      "learning_rate": 9.123885485700049e-05,
      "loss": 7.5806,
      "loss/crossentropy": 2.1955192267894743,
      "loss/hidden": 3.57734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21994279995560645,
      "step": 22020
    },
    {
      "epoch": 0.7343333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 908.9122395833333,
      "learning_rate": 9.115486300504575e-05,
      "loss": 7.7442,
      "loss/crossentropy": 2.1037651874125003,
      "loss/hidden": 3.608984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20334150791168212,
      "step": 22030
    },
    {
      "epoch": 0.7346666666666667,
      "grad_norm": 27.875,
      "grad_norm_var": 9.395572916666667,
      "learning_rate": 9.107051431918944e-05,
      "loss": 7.7365,
      "loss/crossentropy": 2.210801270604134,
      "loss/hidden": 3.435546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19594964981079102,
      "step": 22040
    },
    {
      "epoch": 0.735,
      "grad_norm": 28.25,
      "grad_norm_var": 3.0942057291666667,
      "learning_rate": 9.098580963191908e-05,
      "loss": 7.7258,
      "loss/crossentropy": 2.0567986249923704,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19552275333553554,
      "step": 22050
    },
    {
      "epoch": 0.7353333333333333,
      "grad_norm": 28.0,
      "grad_norm_var": 1.80390625,
      "learning_rate": 9.09007497792357e-05,
      "loss": 7.6263,
      "loss/crossentropy": 2.0325539082288744,
      "loss/hidden": 3.584375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19655003491789103,
      "step": 22060
    },
    {
      "epoch": 0.7356666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 1.70390625,
      "learning_rate": 9.08153356006457e-05,
      "loss": 7.6428,
      "loss/crossentropy": 1.9758184522390365,
      "loss/hidden": 3.4390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.180863216239959,
      "step": 22070
    },
    {
      "epoch": 0.736,
      "grad_norm": 28.75,
      "grad_norm_var": 3.6546223958333335,
      "learning_rate": 9.07295679391526e-05,
      "loss": 7.6479,
      "loss/crossentropy": 2.0911218881607057,
      "loss/hidden": 3.5734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21416922919452192,
      "step": 22080
    },
    {
      "epoch": 0.7363333333333333,
      "grad_norm": 29.375,
      "grad_norm_var": 2.2997395833333334,
      "learning_rate": 9.064344764124852e-05,
      "loss": 7.5806,
      "loss/crossentropy": 1.9327972888946534,
      "loss/hidden": 3.623828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19096189700067043,
      "step": 22090
    },
    {
      "epoch": 0.7366666666666667,
      "grad_norm": 26.625,
      "grad_norm_var": 2.6122395833333334,
      "learning_rate": 9.055697555690608e-05,
      "loss": 7.6489,
      "loss/crossentropy": 2.1428242295980455,
      "loss/hidden": 3.5375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21426594704389573,
      "step": 22100
    },
    {
      "epoch": 0.737,
      "grad_norm": 28.125,
      "grad_norm_var": 2.536393229166667,
      "learning_rate": 9.047015253956981e-05,
      "loss": 7.6099,
      "loss/crossentropy": 2.2596158146858216,
      "loss/hidden": 3.55703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21648634187877178,
      "step": 22110
    },
    {
      "epoch": 0.7373333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 2.1442057291666665,
      "learning_rate": 9.038297944614785e-05,
      "loss": 7.7341,
      "loss/crossentropy": 2.044772403687239,
      "loss/hidden": 3.441015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18932544207200408,
      "step": 22120
    },
    {
      "epoch": 0.7376666666666667,
      "grad_norm": 32.5,
      "grad_norm_var": 3.3999348958333333,
      "learning_rate": 9.029545713700346e-05,
      "loss": 7.6648,
      "loss/crossentropy": 1.961163030564785,
      "loss/hidden": 3.614453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1884706408716738,
      "step": 22130
    },
    {
      "epoch": 0.738,
      "grad_norm": 28.0,
      "grad_norm_var": 3.909375,
      "learning_rate": 9.020758647594646e-05,
      "loss": 7.5784,
      "loss/crossentropy": 1.8796802014112473,
      "loss/hidden": 3.5046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18157810363918542,
      "step": 22140
    },
    {
      "epoch": 0.7383333333333333,
      "grad_norm": 28.0,
      "grad_norm_var": 3.0444333217627853e+18,
      "learning_rate": 9.011936833022484e-05,
      "loss": 7.7373,
      "loss/crossentropy": 2.1361525490880013,
      "loss/hidden": 3.5359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20192783158272504,
      "step": 22150
    },
    {
      "epoch": 0.7386666666666667,
      "grad_norm": 32.0,
      "grad_norm_var": 5.5259765625,
      "learning_rate": 9.003080357051607e-05,
      "loss": 7.5862,
      "loss/crossentropy": 2.1341183722019195,
      "loss/hidden": 3.521484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21967477165162563,
      "step": 22160
    },
    {
      "epoch": 0.739,
      "grad_norm": 28.5,
      "grad_norm_var": 1.7645182291666666,
      "learning_rate": 8.994189307091854e-05,
      "loss": 7.6545,
      "loss/crossentropy": 2.0633115977048875,
      "loss/hidden": 3.61796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.193378933891654,
      "step": 22170
    },
    {
      "epoch": 0.7393333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 1.4718098958333334,
      "learning_rate": 8.985263770894302e-05,
      "loss": 7.7163,
      "loss/crossentropy": 2.150431227684021,
      "loss/hidden": 3.693359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21285873763263224,
      "step": 22180
    },
    {
      "epoch": 0.7396666666666667,
      "grad_norm": 28.625,
      "grad_norm_var": 16.570768229166667,
      "learning_rate": 8.97630383655039e-05,
      "loss": 7.6727,
      "loss/crossentropy": 1.9807396337389946,
      "loss/hidden": 3.448046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19658283134922386,
      "step": 22190
    },
    {
      "epoch": 0.74,
      "grad_norm": 27.25,
      "grad_norm_var": 19.762239583333333,
      "learning_rate": 8.967309592491052e-05,
      "loss": 7.5625,
      "loss/crossentropy": 2.1757678367197513,
      "loss/hidden": 3.458984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2128155424259603,
      "step": 22200
    },
    {
      "epoch": 0.7403333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 1.4488932291666667,
      "learning_rate": 8.958281127485845e-05,
      "loss": 7.5472,
      "loss/crossentropy": 2.061194130033255,
      "loss/hidden": 3.479296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1889759385958314,
      "step": 22210
    },
    {
      "epoch": 0.7406666666666667,
      "grad_norm": 27.625,
      "grad_norm_var": 2.7952473958333335,
      "learning_rate": 8.949218530642075e-05,
      "loss": 7.6151,
      "loss/crossentropy": 2.0728229813277723,
      "loss/hidden": 3.4953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1952021485194564,
      "step": 22220
    },
    {
      "epoch": 0.741,
      "grad_norm": 29.75,
      "grad_norm_var": 32.40807291666667,
      "learning_rate": 8.940121891403912e-05,
      "loss": 7.5998,
      "loss/crossentropy": 2.088392072916031,
      "loss/hidden": 3.605078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1989578979089856,
      "step": 22230
    },
    {
      "epoch": 0.7413333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 16.971809895833335,
      "learning_rate": 8.930991299551515e-05,
      "loss": 7.678,
      "loss/crossentropy": 2.089249915629625,
      "loss/hidden": 3.569140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20038176514208317,
      "step": 22240
    },
    {
      "epoch": 0.7416666666666667,
      "grad_norm": 29.75,
      "grad_norm_var": 3.230208333333333,
      "learning_rate": 8.921826845200139e-05,
      "loss": 7.5722,
      "loss/crossentropy": 2.1239826932549475,
      "loss/hidden": 3.61953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2005884603597224,
      "step": 22250
    },
    {
      "epoch": 0.742,
      "grad_norm": 30.625,
      "grad_norm_var": 2.9854166666666666,
      "learning_rate": 8.91262861879925e-05,
      "loss": 7.6025,
      "loss/crossentropy": 2.14085738658905,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2137705808505416,
      "step": 22260
    },
    {
      "epoch": 0.7423333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 2.343489583333333,
      "learning_rate": 8.903396711131624e-05,
      "loss": 7.6046,
      "loss/crossentropy": 1.8913337871432305,
      "loss/hidden": 3.537890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1923683611676097,
      "step": 22270
    },
    {
      "epoch": 0.7426666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 1.8832682291666667,
      "learning_rate": 8.894131213312467e-05,
      "loss": 7.5532,
      "loss/crossentropy": 1.9501267954707147,
      "loss/hidden": 3.5484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19819272067397833,
      "step": 22280
    },
    {
      "epoch": 0.743,
      "grad_norm": 28.875,
      "grad_norm_var": 2.819205729166667,
      "learning_rate": 8.884832216788501e-05,
      "loss": 7.6744,
      "loss/crossentropy": 2.220875917375088,
      "loss/hidden": 3.469921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19938996117562055,
      "step": 22290
    },
    {
      "epoch": 0.7433333333333333,
      "grad_norm": 30.0,
      "grad_norm_var": 1.6025390625,
      "learning_rate": 8.875499813337069e-05,
      "loss": 7.5482,
      "loss/crossentropy": 2.1203695118427275,
      "loss/hidden": 3.4828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19239178942516447,
      "step": 22300
    },
    {
      "epoch": 0.7436666666666667,
      "grad_norm": 26.625,
      "grad_norm_var": 8.838541666666666,
      "learning_rate": 8.866134095065222e-05,
      "loss": 7.6747,
      "loss/crossentropy": 2.07410399466753,
      "loss/hidden": 3.4828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1968332275748253,
      "step": 22310
    },
    {
      "epoch": 0.744,
      "grad_norm": 29.625,
      "grad_norm_var": 8.917122395833333,
      "learning_rate": 8.85673515440882e-05,
      "loss": 7.5404,
      "loss/crossentropy": 2.104242541640997,
      "loss/hidden": 3.562890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20138515261933207,
      "step": 22320
    },
    {
      "epoch": 0.7443333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 2.3087890625,
      "learning_rate": 8.847303084131613e-05,
      "loss": 7.679,
      "loss/crossentropy": 2.076655426621437,
      "loss/hidden": 3.521484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20225820317864418,
      "step": 22330
    },
    {
      "epoch": 0.7446666666666667,
      "grad_norm": 28.25,
      "grad_norm_var": 1.4270182291666667,
      "learning_rate": 8.837837977324328e-05,
      "loss": 7.5549,
      "loss/crossentropy": 1.97199331484735,
      "loss/hidden": 3.46015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18509145381394773,
      "step": 22340
    },
    {
      "epoch": 0.745,
      "grad_norm": 29.625,
      "grad_norm_var": 0.9,
      "learning_rate": 8.828339927403745e-05,
      "loss": 7.5815,
      "loss/crossentropy": 2.1016619965434074,
      "loss/hidden": 3.515234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2104162724688649,
      "step": 22350
    },
    {
      "epoch": 0.7453333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 1.4723307291666667,
      "learning_rate": 8.818809028111783e-05,
      "loss": 7.7285,
      "loss/crossentropy": 2.034029767662287,
      "loss/hidden": 3.473828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18854013606905937,
      "step": 22360
    },
    {
      "epoch": 0.7456666666666667,
      "grad_norm": 28.5,
      "grad_norm_var": 11.351822916666666,
      "learning_rate": 8.809245373514572e-05,
      "loss": 7.5918,
      "loss/crossentropy": 2.0507765501737594,
      "loss/hidden": 3.602734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21991799995303155,
      "step": 22370
    },
    {
      "epoch": 0.746,
      "grad_norm": 27.875,
      "grad_norm_var": 10.278059895833334,
      "learning_rate": 8.799649058001521e-05,
      "loss": 7.6398,
      "loss/crossentropy": 2.0420378386974334,
      "loss/hidden": 3.62265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19834638610482216,
      "step": 22380
    },
    {
      "epoch": 0.7463333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 139.56139322916667,
      "learning_rate": 8.79002017628439e-05,
      "loss": 7.6281,
      "loss/crossentropy": 2.114726561307907,
      "loss/hidden": 3.511328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1945993335917592,
      "step": 22390
    },
    {
      "epoch": 0.7466666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 143.01764322916668,
      "learning_rate": 8.780358823396352e-05,
      "loss": 7.6033,
      "loss/crossentropy": 2.1299582980573177,
      "loss/hidden": 3.465625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21268012626096605,
      "step": 22400
    },
    {
      "epoch": 0.747,
      "grad_norm": 28.5,
      "grad_norm_var": 24.453059895833334,
      "learning_rate": 8.770665094691064e-05,
      "loss": 7.6004,
      "loss/crossentropy": 2.09407639503479,
      "loss/hidden": 3.528125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20005517825484276,
      "step": 22410
    },
    {
      "epoch": 0.7473333333333333,
      "grad_norm": 68.5,
      "grad_norm_var": 109.85807291666667,
      "learning_rate": 8.76093908584171e-05,
      "loss": 7.6905,
      "loss/crossentropy": 2.253283692896366,
      "loss/hidden": 3.551171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21519504617899657,
      "step": 22420
    },
    {
      "epoch": 0.7476666666666667,
      "grad_norm": 29.875,
      "grad_norm_var": 100.96920572916666,
      "learning_rate": 8.751180892840074e-05,
      "loss": 7.53,
      "loss/crossentropy": 1.9626074001193046,
      "loss/hidden": 3.508203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18422856479883193,
      "step": 22430
    },
    {
      "epoch": 0.748,
      "grad_norm": 27.25,
      "grad_norm_var": 3.2129557291666666,
      "learning_rate": 8.741390611995581e-05,
      "loss": 7.4322,
      "loss/crossentropy": 1.8774556368589401,
      "loss/hidden": 3.54375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21066911737434565,
      "step": 22440
    },
    {
      "epoch": 0.7483333333333333,
      "grad_norm": 30.0,
      "grad_norm_var": 3.0580729166666667,
      "learning_rate": 8.731568339934349e-05,
      "loss": 7.611,
      "loss/crossentropy": 2.0886680990457536,
      "loss/hidden": 3.53984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20858072843402625,
      "step": 22450
    },
    {
      "epoch": 0.7486666666666667,
      "grad_norm": 26.625,
      "grad_norm_var": 3.0931640625,
      "learning_rate": 8.72171417359824e-05,
      "loss": 7.4627,
      "loss/crossentropy": 2.0577007859945295,
      "loss/hidden": 3.546484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19628361649811268,
      "step": 22460
    },
    {
      "epoch": 0.749,
      "grad_norm": 30.625,
      "grad_norm_var": 4.778059895833334,
      "learning_rate": 8.711828210243896e-05,
      "loss": 7.5627,
      "loss/crossentropy": 2.1247499108314516,
      "loss/hidden": 3.594140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2208824411034584,
      "step": 22470
    },
    {
      "epoch": 0.7493333333333333,
      "grad_norm": 28.75,
      "grad_norm_var": 3.2431640625,
      "learning_rate": 8.701910547441786e-05,
      "loss": 7.5314,
      "loss/crossentropy": 2.1249613009393213,
      "loss/hidden": 3.519921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18236859384924173,
      "step": 22480
    },
    {
      "epoch": 0.7496666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 0.9884765625,
      "learning_rate": 8.691961283075233e-05,
      "loss": 7.7002,
      "loss/crossentropy": 2.0473913952708243,
      "loss/hidden": 3.4546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19657958708703518,
      "step": 22490
    },
    {
      "epoch": 0.75,
      "grad_norm": 27.875,
      "grad_norm_var": 1.3979166666666667,
      "learning_rate": 8.681980515339464e-05,
      "loss": 7.545,
      "loss/crossentropy": 2.0645889565348625,
      "loss/hidden": 3.58828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21940149031579495,
      "step": 22500
    },
    {
      "epoch": 0.7503333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 0.8614583333333333,
      "learning_rate": 8.671968342740627e-05,
      "loss": 7.5906,
      "loss/crossentropy": 2.134204125404358,
      "loss/hidden": 3.38984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1961730806156993,
      "step": 22510
    },
    {
      "epoch": 0.7506666666666667,
      "grad_norm": 27.125,
      "grad_norm_var": 2.3247395833333333,
      "learning_rate": 8.661924864094822e-05,
      "loss": 7.6235,
      "loss/crossentropy": 1.9457140512764455,
      "loss/hidden": 3.56953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1988594863563776,
      "step": 22520
    },
    {
      "epoch": 0.751,
      "grad_norm": 31.0,
      "grad_norm_var": 6.930208333333334,
      "learning_rate": 8.65185017852713e-05,
      "loss": 7.5477,
      "loss/crossentropy": 2.175088369846344,
      "loss/hidden": 3.48125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19464628268033266,
      "step": 22530
    },
    {
      "epoch": 0.7513333333333333,
      "grad_norm": 27.875,
      "grad_norm_var": 6.657291666666667,
      "learning_rate": 8.641744385470628e-05,
      "loss": 7.5943,
      "loss/crossentropy": 1.9843165129423141,
      "loss/hidden": 3.610546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20345317116007208,
      "step": 22540
    },
    {
      "epoch": 0.7516666666666667,
      "grad_norm": 30.25,
      "grad_norm_var": 1.2,
      "learning_rate": 8.631607584665414e-05,
      "loss": 7.5538,
      "loss/crossentropy": 2.139354394376278,
      "loss/hidden": 3.590234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2131027102470398,
      "step": 22550
    },
    {
      "epoch": 0.752,
      "grad_norm": 30.875,
      "grad_norm_var": 3.14140625,
      "learning_rate": 8.621439876157622e-05,
      "loss": 7.5358,
      "loss/crossentropy": 1.9600604437291622,
      "loss/hidden": 3.341015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19278565216809512,
      "step": 22560
    },
    {
      "epoch": 0.7523333333333333,
      "grad_norm": 31.75,
      "grad_norm_var": 3.1697265625,
      "learning_rate": 8.611241360298429e-05,
      "loss": 7.601,
      "loss/crossentropy": 2.1606590077281,
      "loss/hidden": 3.551171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20311268288642167,
      "step": 22570
    },
    {
      "epoch": 0.7526666666666667,
      "grad_norm": 27.75,
      "grad_norm_var": 1.6947916666666667,
      "learning_rate": 8.601012137743069e-05,
      "loss": 7.4441,
      "loss/crossentropy": 1.9806740552186965,
      "loss/hidden": 3.47734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1898936064913869,
      "step": 22580
    },
    {
      "epoch": 0.753,
      "grad_norm": 26.75,
      "grad_norm_var": 1.121875,
      "learning_rate": 8.590752309449837e-05,
      "loss": 7.5579,
      "loss/crossentropy": 2.1649864450097085,
      "loss/hidden": 3.501953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1936817906796932,
      "step": 22590
    },
    {
      "epoch": 0.7533333333333333,
      "grad_norm": 28.875,
      "grad_norm_var": 1.2957682291666666,
      "learning_rate": 8.5804619766791e-05,
      "loss": 7.4623,
      "loss/crossentropy": 1.9912237107753754,
      "loss/hidden": 3.369921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17677724361419678,
      "step": 22600
    },
    {
      "epoch": 0.7536666666666667,
      "grad_norm": 34.5,
      "grad_norm_var": 4.583072916666667,
      "learning_rate": 8.570141240992285e-05,
      "loss": 7.5052,
      "loss/crossentropy": 1.9258248887956142,
      "loss/hidden": 3.41640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1718863126821816,
      "step": 22610
    },
    {
      "epoch": 0.754,
      "grad_norm": 27.25,
      "grad_norm_var": 4.39765625,
      "learning_rate": 8.559790204250887e-05,
      "loss": 7.6286,
      "loss/crossentropy": 1.920270534604788,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21592878960072995,
      "step": 22620
    },
    {
      "epoch": 0.7543333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 3.350455729166667,
      "learning_rate": 8.549408968615461e-05,
      "loss": 7.4976,
      "loss/crossentropy": 1.9794688627123833,
      "loss/hidden": 3.555859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20622843131422997,
      "step": 22630
    },
    {
      "epoch": 0.7546666666666667,
      "grad_norm": 27.75,
      "grad_norm_var": 3.265625,
      "learning_rate": 8.53899763654461e-05,
      "loss": 7.5832,
      "loss/crossentropy": 2.1832057766616346,
      "loss/hidden": 3.578515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20718610547482968,
      "step": 22640
    },
    {
      "epoch": 0.755,
      "grad_norm": 30.625,
      "grad_norm_var": 7.5572265625,
      "learning_rate": 8.52855631079398e-05,
      "loss": 7.5354,
      "loss/crossentropy": 2.0273820132017137,
      "loss/hidden": 3.46796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1982576385140419,
      "step": 22650
    },
    {
      "epoch": 0.7553333333333333,
      "grad_norm": 28.0,
      "grad_norm_var": 7.424739583333333,
      "learning_rate": 8.51808509441524e-05,
      "loss": 7.6259,
      "loss/crossentropy": 2.224448761343956,
      "loss/hidden": 3.496875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21609959285706282,
      "step": 22660
    },
    {
      "epoch": 0.7556666666666667,
      "grad_norm": 27.0,
      "grad_norm_var": 1.3926432291666666,
      "learning_rate": 8.507584090755069e-05,
      "loss": 7.541,
      "loss/crossentropy": 2.052679204940796,
      "loss/hidden": 3.462109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2042101456783712,
      "step": 22670
    },
    {
      "epoch": 0.756,
      "grad_norm": 29.25,
      "grad_norm_var": 1.3041015625,
      "learning_rate": 8.497053403454133e-05,
      "loss": 7.4877,
      "loss/crossentropy": 2.0474780216813087,
      "loss/hidden": 3.46171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19255555672571062,
      "step": 22680
    },
    {
      "epoch": 0.7563333333333333,
      "grad_norm": 27.375,
      "grad_norm_var": 1.6796223958333334,
      "learning_rate": 8.486493136446064e-05,
      "loss": 7.6495,
      "loss/crossentropy": 2.1654643058776855,
      "loss/hidden": 3.448828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19368699844926596,
      "step": 22690
    },
    {
      "epoch": 0.7566666666666667,
      "grad_norm": 35.75,
      "grad_norm_var": 8.53515625,
      "learning_rate": 8.475903393956434e-05,
      "loss": 7.699,
      "loss/crossentropy": 2.2046103149652483,
      "loss/hidden": 3.51484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20576203987002373,
      "step": 22700
    },
    {
      "epoch": 0.757,
      "grad_norm": 28.375,
      "grad_norm_var": 4.378059895833333,
      "learning_rate": 8.465284280501728e-05,
      "loss": 7.673,
      "loss/crossentropy": 2.0582919239997866,
      "loss/hidden": 3.466796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19977389723062516,
      "step": 22710
    },
    {
      "epoch": 0.7573333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 1.103125,
      "learning_rate": 8.454635900888305e-05,
      "loss": 7.503,
      "loss/crossentropy": 2.1073424354195596,
      "loss/hidden": 3.462109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2041914898902178,
      "step": 22720
    },
    {
      "epoch": 0.7576666666666667,
      "grad_norm": 28.5,
      "grad_norm_var": 3.9934895833333335,
      "learning_rate": 8.443958360211376e-05,
      "loss": 7.5862,
      "loss/crossentropy": 1.996552325040102,
      "loss/hidden": 3.50234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19313392527401446,
      "step": 22730
    },
    {
      "epoch": 0.758,
      "grad_norm": 25.375,
      "grad_norm_var": 12.517643229166667,
      "learning_rate": 8.433251763853955e-05,
      "loss": 7.5433,
      "loss/crossentropy": 2.0218321952968834,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17924583591520787,
      "step": 22740
    },
    {
      "epoch": 0.7583333333333333,
      "grad_norm": 30.0,
      "grad_norm_var": 13.1822265625,
      "learning_rate": 8.422516217485826e-05,
      "loss": 7.4756,
      "loss/crossentropy": 1.9910611510276794,
      "loss/hidden": 3.531640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19828474670648574,
      "step": 22750
    },
    {
      "epoch": 0.7586666666666667,
      "grad_norm": 30.5,
      "grad_norm_var": 4.151497395833333,
      "learning_rate": 8.4117518270625e-05,
      "loss": 7.457,
      "loss/crossentropy": 2.0528080210089685,
      "loss/hidden": 3.537890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19192924145609142,
      "step": 22760
    },
    {
      "epoch": 0.759,
      "grad_norm": 27.5,
      "grad_norm_var": 3.5759765625,
      "learning_rate": 8.400958698824161e-05,
      "loss": 7.5715,
      "loss/crossentropy": 1.9694609761238098,
      "loss/hidden": 3.496875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20183660499751568,
      "step": 22770
    },
    {
      "epoch": 0.7593333333333333,
      "grad_norm": 27.875,
      "grad_norm_var": 3.09375,
      "learning_rate": 8.390136939294631e-05,
      "loss": 7.526,
      "loss/crossentropy": 2.0170742586255073,
      "loss/hidden": 3.530078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21597461104393006,
      "step": 22780
    },
    {
      "epoch": 0.7596666666666667,
      "grad_norm": 28.125,
      "grad_norm_var": 5.36640625,
      "learning_rate": 8.379286655280302e-05,
      "loss": 7.6393,
      "loss/crossentropy": 2.0312787666916847,
      "loss/hidden": 3.508203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19151955414563418,
      "step": 22790
    },
    {
      "epoch": 0.76,
      "grad_norm": 29.625,
      "grad_norm_var": 3.6395833333333334,
      "learning_rate": 8.368407953869104e-05,
      "loss": 7.4895,
      "loss/crossentropy": 2.09163758456707,
      "loss/hidden": 3.4484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19382547289133073,
      "step": 22800
    },
    {
      "epoch": 0.7603333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 2.655143229166667,
      "learning_rate": 8.357500942429424e-05,
      "loss": 7.5593,
      "loss/crossentropy": 2.095877369493246,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20801592376083136,
      "step": 22810
    },
    {
      "epoch": 0.7606666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 1.4619140625,
      "learning_rate": 8.34656572860906e-05,
      "loss": 7.7253,
      "loss/crossentropy": 2.164764193445444,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20626930426806211,
      "step": 22820
    },
    {
      "epoch": 0.761,
      "grad_norm": 28.5,
      "grad_norm_var": 0.8291666666666667,
      "learning_rate": 8.335602420334162e-05,
      "loss": 7.5984,
      "loss/crossentropy": 2.2208146676421165,
      "loss/hidden": 3.469921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1930639874190092,
      "step": 22830
    },
    {
      "epoch": 0.7613333333333333,
      "grad_norm": 27.375,
      "grad_norm_var": 1.4035807291666667,
      "learning_rate": 8.324611125808153e-05,
      "loss": 7.323,
      "loss/crossentropy": 2.047605223953724,
      "loss/hidden": 3.500390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1907837161794305,
      "step": 22840
    },
    {
      "epoch": 0.7616666666666667,
      "grad_norm": 26.0,
      "grad_norm_var": 1.9572916666666667,
      "learning_rate": 8.313591953510675e-05,
      "loss": 7.4896,
      "loss/crossentropy": 1.9626680858433248,
      "loss/hidden": 3.481640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18827831279486418,
      "step": 22850
    },
    {
      "epoch": 0.762,
      "grad_norm": 30.75,
      "grad_norm_var": 1.478125,
      "learning_rate": 8.302545012196506e-05,
      "loss": 7.4469,
      "loss/crossentropy": 2.024528782069683,
      "loss/hidden": 3.434765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1860325404442847,
      "step": 22860
    },
    {
      "epoch": 0.7623333333333333,
      "grad_norm": 27.5,
      "grad_norm_var": 1.5614583333333334,
      "learning_rate": 8.291470410894503e-05,
      "loss": 7.4275,
      "loss/crossentropy": 2.144756194204092,
      "loss/hidden": 3.383984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18779438687488437,
      "step": 22870
    },
    {
      "epoch": 0.7626666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 0.7822916666666667,
      "learning_rate": 8.280368258906505e-05,
      "loss": 7.4683,
      "loss/crossentropy": 1.9406724080443383,
      "loss/hidden": 3.487890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1975240783765912,
      "step": 22880
    },
    {
      "epoch": 0.763,
      "grad_norm": 25.875,
      "grad_norm_var": 1.4681640625,
      "learning_rate": 8.269238665806273e-05,
      "loss": 7.5113,
      "loss/crossentropy": 2.1385065048933027,
      "loss/hidden": 3.37265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19636416397988796,
      "step": 22890
    },
    {
      "epoch": 0.7633333333333333,
      "grad_norm": 27.625,
      "grad_norm_var": 8.433268229166666,
      "learning_rate": 8.258081741438395e-05,
      "loss": 7.4728,
      "loss/crossentropy": 2.0857705280184744,
      "loss/hidden": 3.497265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2008900310844183,
      "step": 22900
    },
    {
      "epoch": 0.7636666666666667,
      "grad_norm": 30.625,
      "grad_norm_var": 1.9275390625,
      "learning_rate": 8.246897595917212e-05,
      "loss": 7.5127,
      "loss/crossentropy": 2.101105071604252,
      "loss/hidden": 3.49140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2026148896664381,
      "step": 22910
    },
    {
      "epoch": 0.764,
      "grad_norm": 28.75,
      "grad_norm_var": 1.1254557291666667,
      "learning_rate": 8.235686339625725e-05,
      "loss": 7.4431,
      "loss/crossentropy": 2.023197513818741,
      "loss/hidden": 3.453515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20429725479334593,
      "step": 22920
    },
    {
      "epoch": 0.7643333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 1.9676432291666666,
      "learning_rate": 8.224448083214506e-05,
      "loss": 7.4991,
      "loss/crossentropy": 2.096772846579552,
      "loss/hidden": 3.530078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19150063805282116,
      "step": 22930
    },
    {
      "epoch": 0.7646666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 1.6228515625,
      "learning_rate": 8.213182937600612e-05,
      "loss": 7.4012,
      "loss/crossentropy": 1.9597499519586563,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17938691582530736,
      "step": 22940
    },
    {
      "epoch": 0.765,
      "grad_norm": 30.125,
      "grad_norm_var": 2.763541666666667,
      "learning_rate": 8.201891013966478e-05,
      "loss": 7.4707,
      "loss/crossentropy": 1.9817360505461692,
      "loss/hidden": 3.523828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19509880822151898,
      "step": 22950
    },
    {
      "epoch": 0.7653333333333333,
      "grad_norm": 35.25,
      "grad_norm_var": 9.289518229166667,
      "learning_rate": 8.190572423758835e-05,
      "loss": 7.5923,
      "loss/crossentropy": 2.0987179767340423,
      "loss/hidden": 3.45625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18913752851076424,
      "step": 22960
    },
    {
      "epoch": 0.7656666666666667,
      "grad_norm": 27.0,
      "grad_norm_var": 8.620247395833333,
      "learning_rate": 8.179227278687598e-05,
      "loss": 7.5594,
      "loss/crossentropy": 2.007404398918152,
      "loss/hidden": 3.62578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22985132094472646,
      "step": 22970
    },
    {
      "epoch": 0.766,
      "grad_norm": 32.0,
      "grad_norm_var": 2.2978515625,
      "learning_rate": 8.167855690724767e-05,
      "loss": 7.4219,
      "loss/crossentropy": 1.8726444259285926,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1758563483133912,
      "step": 22980
    },
    {
      "epoch": 0.7663333333333333,
      "grad_norm": 26.625,
      "grad_norm_var": 3.0171223958333333,
      "learning_rate": 8.156457772103326e-05,
      "loss": 7.3819,
      "loss/crossentropy": 1.9945810578763485,
      "loss/hidden": 3.42265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17547337915748357,
      "step": 22990
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 28.0,
      "grad_norm_var": 5.90390625,
      "learning_rate": 8.14503363531613e-05,
      "loss": 7.4977,
      "loss/crossentropy": 1.9299149721860887,
      "loss/hidden": 3.561328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19388887714594602,
      "step": 23000
    },
    {
      "epoch": 0.767,
      "grad_norm": 27.625,
      "grad_norm_var": 1.2747395833333333,
      "learning_rate": 8.133583393114797e-05,
      "loss": 7.5107,
      "loss/crossentropy": 2.1192862302064897,
      "loss/hidden": 3.494140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19927413761615753,
      "step": 23010
    },
    {
      "epoch": 0.7673333333333333,
      "grad_norm": 28.25,
      "grad_norm_var": 2.528580729166667,
      "learning_rate": 8.122107158508592e-05,
      "loss": 7.5196,
      "loss/crossentropy": 2.044304075837135,
      "loss/hidden": 3.53359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20039083026349544,
      "step": 23020
    },
    {
      "epoch": 0.7676666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 3.283333333333333,
      "learning_rate": 8.110605044763323e-05,
      "loss": 7.5047,
      "loss/crossentropy": 2.1309088692069054,
      "loss/hidden": 3.490234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19504800960421562,
      "step": 23030
    },
    {
      "epoch": 0.768,
      "grad_norm": 28.125,
      "grad_norm_var": 5.66640625,
      "learning_rate": 8.099077165400204e-05,
      "loss": 7.533,
      "loss/crossentropy": 1.9686566561460495,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18667809749022127,
      "step": 23040
    },
    {
      "epoch": 0.7683333333333333,
      "grad_norm": 29.75,
      "grad_norm_var": 5.320768229166666,
      "learning_rate": 8.087523634194755e-05,
      "loss": 7.4886,
      "loss/crossentropy": 2.005880794674158,
      "loss/hidden": 3.44296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19481752207502723,
      "step": 23050
    },
    {
      "epoch": 0.7686666666666667,
      "grad_norm": 26.375,
      "grad_norm_var": 1.2410807291666666,
      "learning_rate": 8.075944565175659e-05,
      "loss": 7.5662,
      "loss/crossentropy": 2.192203278839588,
      "loss/hidden": 3.458984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21429934445768595,
      "step": 23060
    },
    {
      "epoch": 0.769,
      "grad_norm": 26.25,
      "grad_norm_var": 1.6624348958333333,
      "learning_rate": 8.064340072623657e-05,
      "loss": 7.3836,
      "loss/crossentropy": 2.021069821715355,
      "loss/hidden": 3.543359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21521367449313403,
      "step": 23070
    },
    {
      "epoch": 0.7693333333333333,
      "grad_norm": 28.625,
      "grad_norm_var": 39.1353515625,
      "learning_rate": 8.052710271070405e-05,
      "loss": 7.4727,
      "loss/crossentropy": 1.9759119272232055,
      "loss/hidden": 3.487109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18273938745260238,
      "step": 23080
    },
    {
      "epoch": 0.7696666666666667,
      "grad_norm": 26.125,
      "grad_norm_var": 113.128125,
      "learning_rate": 8.041055275297348e-05,
      "loss": 7.467,
      "loss/crossentropy": 1.9765710644423962,
      "loss/hidden": 3.504296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19071924965828657,
      "step": 23090
    },
    {
      "epoch": 0.77,
      "grad_norm": 25.25,
      "grad_norm_var": 111.61399739583334,
      "learning_rate": 8.029375200334588e-05,
      "loss": 7.3353,
      "loss/crossentropy": 2.1736841291189193,
      "loss/hidden": 3.3328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17423349283635617,
      "step": 23100
    },
    {
      "epoch": 0.7703333333333333,
      "grad_norm": 26.0,
      "grad_norm_var": 1.8122395833333333,
      "learning_rate": 8.017670161459752e-05,
      "loss": 7.3313,
      "loss/crossentropy": 2.2096520021557806,
      "loss/hidden": 3.362890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19355475530028343,
      "step": 23110
    },
    {
      "epoch": 0.7706666666666667,
      "grad_norm": 28.25,
      "grad_norm_var": 2.364518229166667,
      "learning_rate": 8.005940274196846e-05,
      "loss": 7.4944,
      "loss/crossentropy": 2.2522154793143274,
      "loss/hidden": 3.3484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19156052991747857,
      "step": 23120
    },
    {
      "epoch": 0.771,
      "grad_norm": 27.25,
      "grad_norm_var": 3.044205729166667,
      "learning_rate": 7.994185654315124e-05,
      "loss": 7.3322,
      "loss/crossentropy": 2.017530345916748,
      "loss/hidden": 3.308984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17398178149014712,
      "step": 23130
    },
    {
      "epoch": 0.7713333333333333,
      "grad_norm": 25.25,
      "grad_norm_var": 6.49140625,
      "learning_rate": 7.982406417827936e-05,
      "loss": 7.4188,
      "loss/crossentropy": 2.13538076877594,
      "loss/hidden": 3.479296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19466998036950828,
      "step": 23140
    },
    {
      "epoch": 0.7716666666666666,
      "grad_norm": 25.625,
      "grad_norm_var": 7.2697265625,
      "learning_rate": 7.970602680991594e-05,
      "loss": 7.4274,
      "loss/crossentropy": 1.9886194601655007,
      "loss/hidden": 3.508984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.187652344442904,
      "step": 23150
    },
    {
      "epoch": 0.772,
      "grad_norm": 28.625,
      "grad_norm_var": 2.081184895833333,
      "learning_rate": 7.958774560304213e-05,
      "loss": 7.4564,
      "loss/crossentropy": 2.0018317684531213,
      "loss/hidden": 3.51796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18953299205750226,
      "step": 23160
    },
    {
      "epoch": 0.7723333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 3.2228515625,
      "learning_rate": 7.946922172504567e-05,
      "loss": 7.6272,
      "loss/crossentropy": 2.1628062181174754,
      "loss/hidden": 3.5109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20114805568009614,
      "step": 23170
    },
    {
      "epoch": 0.7726666666666666,
      "grad_norm": 29.25,
      "grad_norm_var": 2.3030598958333335,
      "learning_rate": 7.935045634570941e-05,
      "loss": 7.454,
      "loss/crossentropy": 1.9677003532648087,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20842795697972177,
      "step": 23180
    },
    {
      "epoch": 0.773,
      "grad_norm": 27.0,
      "grad_norm_var": 2.3705729166666667,
      "learning_rate": 7.923145063719972e-05,
      "loss": 7.3973,
      "loss/crossentropy": 1.9138947121798993,
      "loss/hidden": 3.378125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18487755134701728,
      "step": 23190
    },
    {
      "epoch": 0.7733333333333333,
      "grad_norm": 27.5,
      "grad_norm_var": 1.2983723958333333,
      "learning_rate": 7.911220577405484e-05,
      "loss": 7.4438,
      "loss/crossentropy": 2.0332114972174167,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19924609856680037,
      "step": 23200
    },
    {
      "epoch": 0.7736666666666666,
      "grad_norm": 24.375,
      "grad_norm_var": 7.162434895833333,
      "learning_rate": 7.89927229331735e-05,
      "loss": 7.4012,
      "loss/crossentropy": 2.2687218472361566,
      "loss/hidden": 3.284765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18496205024421214,
      "step": 23210
    },
    {
      "epoch": 0.774,
      "grad_norm": 26.625,
      "grad_norm_var": 2.1125,
      "learning_rate": 7.887300329380304e-05,
      "loss": 7.4174,
      "loss/crossentropy": 2.0132935985922815,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18549591191112996,
      "step": 23220
    },
    {
      "epoch": 0.7743333333333333,
      "grad_norm": 26.125,
      "grad_norm_var": 2.008072916666667,
      "learning_rate": 7.8753048037528e-05,
      "loss": 7.3578,
      "loss/crossentropy": 2.038771292567253,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1932824071496725,
      "step": 23230
    },
    {
      "epoch": 0.7746666666666666,
      "grad_norm": 32.5,
      "grad_norm_var": 4.643489583333333,
      "learning_rate": 7.863285834825832e-05,
      "loss": 7.399,
      "loss/crossentropy": 2.0289094880223275,
      "loss/hidden": 3.521484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19404235538095235,
      "step": 23240
    },
    {
      "epoch": 0.775,
      "grad_norm": 29.125,
      "grad_norm_var": 8.295572916666666,
      "learning_rate": 7.85124354122177e-05,
      "loss": 7.4128,
      "loss/crossentropy": 2.110806605219841,
      "loss/hidden": 3.377734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1978354908525944,
      "step": 23250
    },
    {
      "epoch": 0.7753333333333333,
      "grad_norm": 27.125,
      "grad_norm_var": 2.4707682291666666,
      "learning_rate": 7.839178041793193e-05,
      "loss": 7.4052,
      "loss/crossentropy": 2.0687429390847685,
      "loss/hidden": 3.491796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2014083441346884,
      "step": 23260
    },
    {
      "epoch": 0.7756666666666666,
      "grad_norm": 27.375,
      "grad_norm_var": 1.3455729166666666,
      "learning_rate": 7.827089455621707e-05,
      "loss": 7.4279,
      "loss/crossentropy": 2.0050750449299812,
      "loss/hidden": 3.269921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1765454810112715,
      "step": 23270
    },
    {
      "epoch": 0.776,
      "grad_norm": 28.0,
      "grad_norm_var": 1.1393229166666667,
      "learning_rate": 7.814977902016779e-05,
      "loss": 7.4339,
      "loss/crossentropy": 2.0278828397393225,
      "loss/hidden": 3.414453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1700163958594203,
      "step": 23280
    },
    {
      "epoch": 0.7763333333333333,
      "grad_norm": 26.5,
      "grad_norm_var": 1.82890625,
      "learning_rate": 7.802843500514553e-05,
      "loss": 7.4093,
      "loss/crossentropy": 1.9275280833244324,
      "loss/hidden": 3.5328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19342173589393497,
      "step": 23290
    },
    {
      "epoch": 0.7766666666666666,
      "grad_norm": 27.625,
      "grad_norm_var": 1.4684895833333333,
      "learning_rate": 7.790686370876671e-05,
      "loss": 7.582,
      "loss/crossentropy": 2.128317493200302,
      "loss/hidden": 3.448046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1935270931571722,
      "step": 23300
    },
    {
      "epoch": 0.777,
      "grad_norm": 26.5,
      "grad_norm_var": 1.24140625,
      "learning_rate": 7.778506633089096e-05,
      "loss": 7.3099,
      "loss/crossentropy": 2.1446583211421966,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1842292295768857,
      "step": 23310
    },
    {
      "epoch": 0.7773333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 1.647261914673709e+18,
      "learning_rate": 7.766304407360924e-05,
      "loss": 7.5152,
      "loss/crossentropy": 2.117107591032982,
      "loss/hidden": 3.361328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18693095725029707,
      "step": 23320
    },
    {
      "epoch": 0.7776666666666666,
      "grad_norm": 27.25,
      "grad_norm_var": 1.647261914636275e+18,
      "learning_rate": 7.754079814123195e-05,
      "loss": 7.3871,
      "loss/crossentropy": 1.9594203799962997,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18217467218637468,
      "step": 23330
    },
    {
      "epoch": 0.778,
      "grad_norm": 25.625,
      "grad_norm_var": 1.3916015625,
      "learning_rate": 7.741832974027709e-05,
      "loss": 7.3621,
      "loss/crossentropy": 1.9576537497341633,
      "loss/hidden": 3.344921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17676338767632843,
      "step": 23340
    },
    {
      "epoch": 0.7783333333333333,
      "grad_norm": 26.0,
      "grad_norm_var": 1.1270833333333334,
      "learning_rate": 7.729564007945835e-05,
      "loss": 7.345,
      "loss/crossentropy": 1.9789281010627746,
      "loss/hidden": 3.346484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1813190994784236,
      "step": 23350
    },
    {
      "epoch": 0.7786666666666666,
      "grad_norm": 25.75,
      "grad_norm_var": 3.4680531624457667e+18,
      "learning_rate": 7.717273036967312e-05,
      "loss": 7.3519,
      "loss/crossentropy": 2.2810946226119997,
      "loss/hidden": 3.4328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1951879994943738,
      "step": 23360
    },
    {
      "epoch": 0.779,
      "grad_norm": 28.375,
      "grad_norm_var": 1.7999348958333334,
      "learning_rate": 7.704960182399065e-05,
      "loss": 7.3035,
      "loss/crossentropy": 2.106377599388361,
      "loss/hidden": 3.356640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18016488589346408,
      "step": 23370
    },
    {
      "epoch": 0.7793333333333333,
      "grad_norm": 27.125,
      "grad_norm_var": 1.2702473958333333,
      "learning_rate": 7.692625565763996e-05,
      "loss": 7.3742,
      "loss/crossentropy": 1.963225745409727,
      "loss/hidden": 3.4859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.201007841527462,
      "step": 23380
    },
    {
      "epoch": 0.7796666666666666,
      "grad_norm": 27.25,
      "grad_norm_var": 1.5384765625,
      "learning_rate": 7.680269308799791e-05,
      "loss": 7.279,
      "loss/crossentropy": 2.0159963831305503,
      "loss/hidden": 3.458984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.187699238024652,
      "step": 23390
    },
    {
      "epoch": 0.78,
      "grad_norm": 25.625,
      "grad_norm_var": 0.9184895833333333,
      "learning_rate": 7.667891533457719e-05,
      "loss": 7.419,
      "loss/crossentropy": 2.0797833621501924,
      "loss/hidden": 3.42890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1819260410964489,
      "step": 23400
    },
    {
      "epoch": 0.7803333333333333,
      "grad_norm": 27.375,
      "grad_norm_var": 1.5462890625,
      "learning_rate": 7.655492361901425e-05,
      "loss": 7.4127,
      "loss/crossentropy": 1.9969025284051896,
      "loss/hidden": 3.566796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20141962189227341,
      "step": 23410
    },
    {
      "epoch": 0.7806666666666666,
      "grad_norm": 24.625,
      "grad_norm_var": 2.5885416666666665,
      "learning_rate": 7.643071916505726e-05,
      "loss": 7.2426,
      "loss/crossentropy": 2.1777842193841934,
      "loss/hidden": 3.383203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19313708059489726,
      "step": 23420
    },
    {
      "epoch": 0.781,
      "grad_norm": 28.875,
      "grad_norm_var": 2.540311642526537e+18,
      "learning_rate": 7.630630319855406e-05,
      "loss": 7.4692,
      "loss/crossentropy": 1.98684598878026,
      "loss/hidden": 3.345703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17943298360332846,
      "step": 23430
    },
    {
      "epoch": 0.7813333333333333,
      "grad_norm": 25.875,
      "grad_norm_var": 1.8872395833333333,
      "learning_rate": 7.618167694743998e-05,
      "loss": 7.3491,
      "loss/crossentropy": 1.9924467638134957,
      "loss/hidden": 3.455859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19452919848263264,
      "step": 23440
    },
    {
      "epoch": 0.7816666666666666,
      "grad_norm": 26.375,
      "grad_norm_var": 0.8955729166666667,
      "learning_rate": 7.60568416417258e-05,
      "loss": 7.4007,
      "loss/crossentropy": 2.1785530865192415,
      "loss/hidden": 3.355859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1901299361139536,
      "step": 23450
    },
    {
      "epoch": 0.782,
      "grad_norm": 26.375,
      "grad_norm_var": 1.4455729166666667,
      "learning_rate": 7.593179851348563e-05,
      "loss": 7.3419,
      "loss/crossentropy": 2.048526135832071,
      "loss/hidden": 3.457421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1861328760161996,
      "step": 23460
    },
    {
      "epoch": 0.7823333333333333,
      "grad_norm": 26.75,
      "grad_norm_var": 3.459375,
      "learning_rate": 7.580654879684464e-05,
      "loss": 7.4101,
      "loss/crossentropy": 1.9338685415685177,
      "loss/hidden": 3.4875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19165972275659443,
      "step": 23470
    },
    {
      "epoch": 0.7826666666666666,
      "grad_norm": 27.125,
      "grad_norm_var": 4.140625,
      "learning_rate": 7.568109372796697e-05,
      "loss": 7.3926,
      "loss/crossentropy": 2.115327002480626,
      "loss/hidden": 3.335546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.187891862122342,
      "step": 23480
    },
    {
      "epoch": 0.783,
      "grad_norm": 28.25,
      "grad_norm_var": 2.3053504071336287e+18,
      "learning_rate": 7.555543454504348e-05,
      "loss": 7.3786,
      "loss/crossentropy": 2.1964672222733497,
      "loss/hidden": 3.740234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1924813449382782,
      "step": 23490
    },
    {
      "epoch": 0.7833333333333333,
      "grad_norm": 27.375,
      "grad_norm_var": 1.5384765625,
      "learning_rate": 7.542957248827961e-05,
      "loss": 7.3937,
      "loss/crossentropy": 2.072338564693928,
      "loss/hidden": 3.492578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20393363032490014,
      "step": 23500
    },
    {
      "epoch": 0.7836666666666666,
      "grad_norm": 26.0,
      "grad_norm_var": 1.6676432291666667,
      "learning_rate": 7.530350879988304e-05,
      "loss": 7.2573,
      "loss/crossentropy": 2.1300232261419296,
      "loss/hidden": 3.4359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19609809312969445,
      "step": 23510
    },
    {
      "epoch": 0.784,
      "grad_norm": 26.875,
      "grad_norm_var": 1.9218098958333334,
      "learning_rate": 7.517724472405146e-05,
      "loss": 7.3829,
      "loss/crossentropy": 2.1858866199851037,
      "loss/hidden": 3.410546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18005712442100047,
      "step": 23520
    },
    {
      "epoch": 0.7843333333333333,
      "grad_norm": 27.5,
      "grad_norm_var": 2.6322265625,
      "learning_rate": 7.505078150696035e-05,
      "loss": 7.259,
      "loss/crossentropy": 2.11143764257431,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17099386416375636,
      "step": 23530
    },
    {
      "epoch": 0.7846666666666666,
      "grad_norm": 27.875,
      "grad_norm_var": 19.049739583333334,
      "learning_rate": 7.492412039675058e-05,
      "loss": 7.3895,
      "loss/crossentropy": 2.0830544363707304,
      "loss/hidden": 3.37421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.184346787026152,
      "step": 23540
    },
    {
      "epoch": 0.785,
      "grad_norm": 28.0,
      "grad_norm_var": 19.7978515625,
      "learning_rate": 7.479726264351618e-05,
      "loss": 7.3045,
      "loss/crossentropy": 2.0409920796751977,
      "loss/hidden": 3.45234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.190955501049757,
      "step": 23550
    },
    {
      "epoch": 0.7853333333333333,
      "grad_norm": 27.0,
      "grad_norm_var": 1.64140625,
      "learning_rate": 7.4670209499292e-05,
      "loss": 7.3454,
      "loss/crossentropy": 1.9914120055735112,
      "loss/hidden": 3.43671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1819184892810881,
      "step": 23560
    },
    {
      "epoch": 0.7856666666666666,
      "grad_norm": 28.125,
      "grad_norm_var": 1.2546223958333333,
      "learning_rate": 7.454296221804121e-05,
      "loss": 7.2387,
      "loss/crossentropy": 2.0846676357090472,
      "loss/hidden": 3.41875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18154996410012245,
      "step": 23570
    },
    {
      "epoch": 0.786,
      "grad_norm": 26.625,
      "grad_norm_var": 2.4833333333333334,
      "learning_rate": 7.441552205564317e-05,
      "loss": 7.3623,
      "loss/crossentropy": 2.1405218988656998,
      "loss/hidden": 3.52890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21327570956200362,
      "step": 23580
    },
    {
      "epoch": 0.7863333333333333,
      "grad_norm": 27.0,
      "grad_norm_var": 1.6942057291666666,
      "learning_rate": 7.428789026988078e-05,
      "loss": 7.3275,
      "loss/crossentropy": 2.189077128469944,
      "loss/hidden": 3.36796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.183055036701262,
      "step": 23590
    },
    {
      "epoch": 0.7866666666666666,
      "grad_norm": 26.5,
      "grad_norm_var": 1.03125,
      "learning_rate": 7.416006812042828e-05,
      "loss": 7.2771,
      "loss/crossentropy": 2.1273641705513002,
      "loss/hidden": 3.39921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1837273458018899,
      "step": 23600
    },
    {
      "epoch": 0.787,
      "grad_norm": 25.25,
      "grad_norm_var": 1.1322916666666667,
      "learning_rate": 7.403205686883864e-05,
      "loss": 7.1614,
      "loss/crossentropy": 2.0558855824172495,
      "loss/hidden": 3.311328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17631138348951936,
      "step": 23610
    },
    {
      "epoch": 0.7873333333333333,
      "grad_norm": 26.75,
      "grad_norm_var": 1.50390625,
      "learning_rate": 7.39038577785313e-05,
      "loss": 7.3046,
      "loss/crossentropy": 1.9993584722280502,
      "loss/hidden": 3.648828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21630566865205764,
      "step": 23620
    },
    {
      "epoch": 0.7876666666666666,
      "grad_norm": 26.375,
      "grad_norm_var": 1.0979166666666667,
      "learning_rate": 7.377547211477946e-05,
      "loss": 7.4785,
      "loss/crossentropy": 2.142679235339165,
      "loss/hidden": 3.372265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18648772593587637,
      "step": 23630
    },
    {
      "epoch": 0.788,
      "grad_norm": 28.5,
      "grad_norm_var": 2.067122395833333,
      "learning_rate": 7.36469011446978e-05,
      "loss": 7.4104,
      "loss/crossentropy": 2.191077730059624,
      "loss/hidden": 3.295703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17883399985730647,
      "step": 23640
    },
    {
      "epoch": 0.7883333333333333,
      "grad_norm": 26.125,
      "grad_norm_var": 1.7035807291666667,
      "learning_rate": 7.35181461372299e-05,
      "loss": 7.3389,
      "loss/crossentropy": 2.063406619429588,
      "loss/hidden": 3.396875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20122182425111532,
      "step": 23650
    },
    {
      "epoch": 0.7886666666666666,
      "grad_norm": 25.5,
      "grad_norm_var": 18.208072916666666,
      "learning_rate": 7.338920836313572e-05,
      "loss": 7.2588,
      "loss/crossentropy": 2.062808007001877,
      "loss/hidden": 3.40390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19022527448832988,
      "step": 23660
    },
    {
      "epoch": 0.789,
      "grad_norm": 27.375,
      "grad_norm_var": 1.4186848958333333,
      "learning_rate": 7.326008909497901e-05,
      "loss": 7.2722,
      "loss/crossentropy": 2.0678359627723695,
      "loss/hidden": 3.456640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19251144528388978,
      "step": 23670
    },
    {
      "epoch": 0.7893333333333333,
      "grad_norm": 27.5,
      "grad_norm_var": 2.3308942610148623e+18,
      "learning_rate": 7.313078960711483e-05,
      "loss": 7.3772,
      "loss/crossentropy": 2.3504543006420135,
      "loss/hidden": 3.399609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1857314633205533,
      "step": 23680
    },
    {
      "epoch": 0.7896666666666666,
      "grad_norm": 26.875,
      "grad_norm_var": 2.330894261447435e+18,
      "learning_rate": 7.300131117567692e-05,
      "loss": 7.2372,
      "loss/crossentropy": 2.0384044095873834,
      "loss/hidden": 3.373828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1833371376618743,
      "step": 23690
    },
    {
      "epoch": 0.79,
      "grad_norm": 26.375,
      "grad_norm_var": 2.9447916666666667,
      "learning_rate": 7.287165507856512e-05,
      "loss": 7.3968,
      "loss/crossentropy": 2.0169043824076653,
      "loss/hidden": 3.4125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17834869027137756,
      "step": 23700
    },
    {
      "epoch": 0.7903333333333333,
      "grad_norm": 25.875,
      "grad_norm_var": 2.8291015625,
      "learning_rate": 7.27418225954328e-05,
      "loss": 7.209,
      "loss/crossentropy": 2.0671774983406066,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1780660256743431,
      "step": 23710
    },
    {
      "epoch": 0.7906666666666666,
      "grad_norm": 24.875,
      "grad_norm_var": 0.7567057291666667,
      "learning_rate": 7.261181500767413e-05,
      "loss": 7.2326,
      "loss/crossentropy": 1.840275975316763,
      "loss/hidden": 3.2921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1688528038561344,
      "step": 23720
    },
    {
      "epoch": 0.791,
      "grad_norm": 28.25,
      "grad_norm_var": 1.8389973958333334,
      "learning_rate": 7.248163359841148e-05,
      "loss": 7.2749,
      "loss/crossentropy": 1.863051414489746,
      "loss/hidden": 3.254296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15819047279655934,
      "step": 23730
    },
    {
      "epoch": 0.7913333333333333,
      "grad_norm": 25.875,
      "grad_norm_var": 1.14140625,
      "learning_rate": 7.235127965248285e-05,
      "loss": 7.3715,
      "loss/crossentropy": 2.033174179494381,
      "loss/hidden": 3.48125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18322906009852885,
      "step": 23740
    },
    {
      "epoch": 0.7916666666666666,
      "grad_norm": 26.375,
      "grad_norm_var": 0.790625,
      "learning_rate": 7.222075445642904e-05,
      "loss": 7.3671,
      "loss/crossentropy": 2.1419862687587736,
      "loss/hidden": 3.3890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1809433963149786,
      "step": 23750
    },
    {
      "epoch": 0.792,
      "grad_norm": 25.0,
      "grad_norm_var": 0.6431640625,
      "learning_rate": 7.209005929848107e-05,
      "loss": 7.3336,
      "loss/crossentropy": 2.0215205609798432,
      "loss/hidden": 3.341796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1783350331708789,
      "step": 23760
    },
    {
      "epoch": 0.7923333333333333,
      "grad_norm": 26.25,
      "grad_norm_var": 1.0122395833333333,
      "learning_rate": 7.195919546854732e-05,
      "loss": 7.2975,
      "loss/crossentropy": 2.16986320912838,
      "loss/hidden": 3.305078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17684876844286918,
      "step": 23770
    },
    {
      "epoch": 0.7926666666666666,
      "grad_norm": 26.125,
      "grad_norm_var": 6.220572916666667,
      "learning_rate": 7.182816425820101e-05,
      "loss": 7.286,
      "loss/crossentropy": 2.0275315180420876,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1788380341604352,
      "step": 23780
    },
    {
      "epoch": 0.793,
      "grad_norm": 27.875,
      "grad_norm_var": 1.3247395833333333,
      "learning_rate": 7.16969669606673e-05,
      "loss": 7.4463,
      "loss/crossentropy": 2.0448300421237944,
      "loss/hidden": 3.374609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1782231353223324,
      "step": 23790
    },
    {
      "epoch": 0.7933333333333333,
      "grad_norm": 27.5,
      "grad_norm_var": 0.9686848958333333,
      "learning_rate": 7.156560487081053e-05,
      "loss": 7.2929,
      "loss/crossentropy": 2.0439211681485174,
      "loss/hidden": 3.4046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18058539805933832,
      "step": 23800
    },
    {
      "epoch": 0.7936666666666666,
      "grad_norm": 25.875,
      "grad_norm_var": 1.1385416666666666,
      "learning_rate": 7.143407928512146e-05,
      "loss": 7.1752,
      "loss/crossentropy": 2.0834071934223175,
      "loss/hidden": 3.4390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1776286605745554,
      "step": 23810
    },
    {
      "epoch": 0.794,
      "grad_norm": 29.0,
      "grad_norm_var": 2.6458333333333335,
      "learning_rate": 7.130239150170455e-05,
      "loss": 7.3533,
      "loss/crossentropy": 2.069356369972229,
      "loss/hidden": 3.456640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18835821226239205,
      "step": 23820
    },
    {
      "epoch": 0.7943333333333333,
      "grad_norm": 26.375,
      "grad_norm_var": 2.9332682291666665,
      "learning_rate": 7.117054282026508e-05,
      "loss": 7.3786,
      "loss/crossentropy": 2.15442588403821,
      "loss/hidden": 3.30234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17487594103440643,
      "step": 23830
    },
    {
      "epoch": 0.7946666666666666,
      "grad_norm": 26.0,
      "grad_norm_var": 1.1457682291666667,
      "learning_rate": 7.103853454209628e-05,
      "loss": 7.2191,
      "loss/crossentropy": 2.086764992028475,
      "loss/hidden": 3.351171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17575874989852308,
      "step": 23840
    },
    {
      "epoch": 0.795,
      "grad_norm": 25.625,
      "grad_norm_var": 1.2385416666666667,
      "learning_rate": 7.090636797006658e-05,
      "loss": 7.3092,
      "loss/crossentropy": 2.035817837715149,
      "loss/hidden": 3.4421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1798616824671626,
      "step": 23850
    },
    {
      "epoch": 0.7953333333333333,
      "grad_norm": 23.625,
      "grad_norm_var": 2.1634765625,
      "learning_rate": 7.077404440860666e-05,
      "loss": 7.2022,
      "loss/crossentropy": 2.0340130746364595,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18757070507854223,
      "step": 23860
    },
    {
      "epoch": 0.7956666666666666,
      "grad_norm": 24.5,
      "grad_norm_var": 2.4514973958333335,
      "learning_rate": 7.064156516369666e-05,
      "loss": 7.3237,
      "loss/crossentropy": 2.046588622033596,
      "loss/hidden": 3.430078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18935591662302614,
      "step": 23870
    },
    {
      "epoch": 0.796,
      "grad_norm": 27.0,
      "grad_norm_var": 1.1660807291666666,
      "learning_rate": 7.050893154285327e-05,
      "loss": 7.331,
      "loss/crossentropy": 2.1309110179543493,
      "loss/hidden": 3.371875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17215617671608924,
      "step": 23880
    },
    {
      "epoch": 0.7963333333333333,
      "grad_norm": 26.5,
      "grad_norm_var": 0.9455729166666667,
      "learning_rate": 7.037614485511676e-05,
      "loss": 7.251,
      "loss/crossentropy": 2.123047386109829,
      "loss/hidden": 3.3,
      "loss/jsd": 0.0,
      "loss/logits": 0.1786116823554039,
      "step": 23890
    },
    {
      "epoch": 0.7966666666666666,
      "grad_norm": 27.875,
      "grad_norm_var": 1.2010416666666666,
      "learning_rate": 7.024320641103812e-05,
      "loss": 7.2897,
      "loss/crossentropy": 2.1215869694948197,
      "loss/hidden": 3.40546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1894577570259571,
      "step": 23900
    },
    {
      "epoch": 0.797,
      "grad_norm": 25.375,
      "grad_norm_var": 1.1927083333333333,
      "learning_rate": 7.011011752266612e-05,
      "loss": 7.112,
      "loss/crossentropy": 2.1410455122590064,
      "loss/hidden": 3.294921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18200043272227048,
      "step": 23910
    },
    {
      "epoch": 0.7973333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 0.8145833333333333,
      "learning_rate": 6.99768795035344e-05,
      "loss": 7.1817,
      "loss/crossentropy": 1.9395751819014548,
      "loss/hidden": 3.3234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17033605417236686,
      "step": 23920
    },
    {
      "epoch": 0.7976666666666666,
      "grad_norm": 23.25,
      "grad_norm_var": 2.395768229166667,
      "learning_rate": 6.984349366864839e-05,
      "loss": 7.1585,
      "loss/crossentropy": 1.8782190293073655,
      "loss/hidden": 3.371875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1784798389300704,
      "step": 23930
    },
    {
      "epoch": 0.798,
      "grad_norm": 25.125,
      "grad_norm_var": 2.3053504077789222e+18,
      "learning_rate": 6.97099613344724e-05,
      "loss": 7.308,
      "loss/crossentropy": 2.1117516651749613,
      "loss/hidden": 3.307421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1816192871890962,
      "step": 23940
    },
    {
      "epoch": 0.7983333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 2.305350407854839e+18,
      "learning_rate": 6.957628381891673e-05,
      "loss": 7.3415,
      "loss/crossentropy": 2.0898191846907137,
      "loss/hidden": 3.33125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17528143543750047,
      "step": 23950
    },
    {
      "epoch": 0.7986666666666666,
      "grad_norm": 23.75,
      "grad_norm_var": 2.019791666666667,
      "learning_rate": 6.944246244132443e-05,
      "loss": 7.1587,
      "loss/crossentropy": 2.0945689618587493,
      "loss/hidden": 3.31328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1783385954797268,
      "step": 23960
    },
    {
      "epoch": 0.799,
      "grad_norm": 25.625,
      "grad_norm_var": 2.0619140625,
      "learning_rate": 6.930849852245848e-05,
      "loss": 7.3629,
      "loss/crossentropy": 2.0345364600419997,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18947122450917958,
      "step": 23970
    },
    {
      "epoch": 0.7993333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 2.7583333333333333,
      "learning_rate": 6.917439338448872e-05,
      "loss": 7.2008,
      "loss/crossentropy": 2.0551148861646653,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17965832073241472,
      "step": 23980
    },
    {
      "epoch": 0.7996666666666666,
      "grad_norm": 26.625,
      "grad_norm_var": 21.099739583333335,
      "learning_rate": 6.904014835097867e-05,
      "loss": 7.2763,
      "loss/crossentropy": 2.044001418352127,
      "loss/hidden": 3.451953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18677353039383887,
      "step": 23990
    },
    {
      "epoch": 0.8,
      "grad_norm": 25.375,
      "grad_norm_var": 0.9718098958333333,
      "learning_rate": 6.890576474687263e-05,
      "loss": 7.211,
      "loss/crossentropy": 2.2494696259498594,
      "loss/hidden": 3.355078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18474820386618376,
      "step": 24000
    },
    {
      "epoch": 0.8003333333333333,
      "grad_norm": 25.25,
      "grad_norm_var": 1.2018229166666667,
      "learning_rate": 6.877124389848254e-05,
      "loss": 7.2794,
      "loss/crossentropy": 2.300140696763992,
      "loss/hidden": 3.36875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19267369732260703,
      "step": 24010
    },
    {
      "epoch": 0.8006666666666666,
      "grad_norm": 22.75,
      "grad_norm_var": 2.919791666666667,
      "learning_rate": 6.863658713347484e-05,
      "loss": 7.2944,
      "loss/crossentropy": 2.0973946295678614,
      "loss/hidden": 3.3421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18365285200998188,
      "step": 24020
    },
    {
      "epoch": 0.801,
      "grad_norm": 25.5,
      "grad_norm_var": 2.533072916666667,
      "learning_rate": 6.850179578085744e-05,
      "loss": 7.226,
      "loss/crossentropy": 1.9838631860911846,
      "loss/hidden": 3.324609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17135070022195578,
      "step": 24030
    },
    {
      "epoch": 0.8013333333333333,
      "grad_norm": 25.875,
      "grad_norm_var": 0.7624348958333333,
      "learning_rate": 6.836687117096657e-05,
      "loss": 7.1629,
      "loss/crossentropy": 2.1537132054567336,
      "loss/hidden": 3.30390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17650238294154405,
      "step": 24040
    },
    {
      "epoch": 0.8016666666666666,
      "grad_norm": 25.75,
      "grad_norm_var": 0.9291666666666667,
      "learning_rate": 6.823181463545368e-05,
      "loss": 7.2053,
      "loss/crossentropy": 2.0979036509990694,
      "loss/hidden": 3.3296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17083593588322402,
      "step": 24050
    },
    {
      "epoch": 0.802,
      "grad_norm": 26.75,
      "grad_norm_var": 1.4358723958333333,
      "learning_rate": 6.809662750727222e-05,
      "loss": 7.3477,
      "loss/crossentropy": 2.0106400445103647,
      "loss/hidden": 3.440625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17500849366188048,
      "step": 24060
    },
    {
      "epoch": 0.8023333333333333,
      "grad_norm": 27.75,
      "grad_norm_var": 3.159375,
      "learning_rate": 6.796131112066461e-05,
      "loss": 7.1892,
      "loss/crossentropy": 2.011872109770775,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16934235505759715,
      "step": 24070
    },
    {
      "epoch": 0.8026666666666666,
      "grad_norm": 25.25,
      "grad_norm_var": 3.3551432291666665,
      "learning_rate": 6.782586681114894e-05,
      "loss": 7.2536,
      "loss/crossentropy": 1.9991176337003709,
      "loss/hidden": 3.26875,
      "loss/jsd": 0.0,
      "loss/logits": 0.173070646263659,
      "step": 24080
    },
    {
      "epoch": 0.803,
      "grad_norm": 25.125,
      "grad_norm_var": 0.7145833333333333,
      "learning_rate": 6.769029591550581e-05,
      "loss": 7.2212,
      "loss/crossentropy": 2.190063714981079,
      "loss/hidden": 3.3859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19409491550177335,
      "step": 24090
    },
    {
      "epoch": 0.8033333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 1.0520833333333333,
      "learning_rate": 6.755459977176533e-05,
      "loss": 7.226,
      "loss/crossentropy": 2.0515845850110055,
      "loss/hidden": 3.2640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17549332650378346,
      "step": 24100
    },
    {
      "epoch": 0.8036666666666666,
      "grad_norm": 23.875,
      "grad_norm_var": 1.3291666666666666,
      "learning_rate": 6.741877971919357e-05,
      "loss": 7.3119,
      "loss/crossentropy": 2.1062870398163795,
      "loss/hidden": 3.355859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1822298699989915,
      "step": 24110
    },
    {
      "epoch": 0.804,
      "grad_norm": 25.125,
      "grad_norm_var": 2.460724593429193e+18,
      "learning_rate": 6.728283709827963e-05,
      "loss": 7.2493,
      "loss/crossentropy": 2.1633963331580164,
      "loss/hidden": 3.459375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19363478161394596,
      "step": 24120
    },
    {
      "epoch": 0.8043333333333333,
      "grad_norm": 24.375,
      "grad_norm_var": 22.76640625,
      "learning_rate": 6.714677325072235e-05,
      "loss": 7.2432,
      "loss/crossentropy": 2.1364134401082993,
      "loss/hidden": 3.352734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1911363998427987,
      "step": 24130
    },
    {
      "epoch": 0.8046666666666666,
      "grad_norm": 27.125,
      "grad_norm_var": 1.0369140625,
      "learning_rate": 6.701058951941691e-05,
      "loss": 7.2875,
      "loss/crossentropy": 2.144788406789303,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19746586456894874,
      "step": 24140
    },
    {
      "epoch": 0.805,
      "grad_norm": 28.5,
      "grad_norm_var": 4.764322916666667,
      "learning_rate": 6.687428724844179e-05,
      "loss": 7.143,
      "loss/crossentropy": 1.9672424003481865,
      "loss/hidden": 3.464453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1883099837228656,
      "step": 24150
    },
    {
      "epoch": 0.8053333333333333,
      "grad_norm": 26.125,
      "grad_norm_var": 5.80390625,
      "learning_rate": 6.673786778304537e-05,
      "loss": 7.1432,
      "loss/crossentropy": 1.940127792209387,
      "loss/hidden": 3.219140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15666389614343643,
      "step": 24160
    },
    {
      "epoch": 0.8056666666666666,
      "grad_norm": 25.0,
      "grad_norm_var": 373.32890625,
      "learning_rate": 6.66013324696327e-05,
      "loss": 7.2992,
      "loss/crossentropy": 2.203534686565399,
      "loss/hidden": 3.34921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17815530616790057,
      "step": 24170
    },
    {
      "epoch": 0.806,
      "grad_norm": 25.25,
      "grad_norm_var": 0.9864583333333333,
      "learning_rate": 6.646468265575219e-05,
      "loss": 7.2117,
      "loss/crossentropy": 2.0774502992630004,
      "loss/hidden": 3.400390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17327735256403684,
      "step": 24180
    },
    {
      "epoch": 0.8063333333333333,
      "grad_norm": 26.875,
      "grad_norm_var": 0.8587890625,
      "learning_rate": 6.632791969008237e-05,
      "loss": 7.2638,
      "loss/crossentropy": 2.0702610716223715,
      "loss/hidden": 3.4234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18914096765220165,
      "step": 24190
    },
    {
      "epoch": 0.8066666666666666,
      "grad_norm": 26.0,
      "grad_norm_var": 2.709830729166667,
      "learning_rate": 6.619104492241848e-05,
      "loss": 7.2388,
      "loss/crossentropy": 2.02001933157444,
      "loss/hidden": 3.426953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.200399025157094,
      "step": 24200
    },
    {
      "epoch": 0.807,
      "grad_norm": 24.75,
      "grad_norm_var": 1.3978515625,
      "learning_rate": 6.60540597036592e-05,
      "loss": 7.1491,
      "loss/crossentropy": 2.1803820818662643,
      "loss/hidden": 3.303125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17881411854177715,
      "step": 24210
    },
    {
      "epoch": 0.8073333333333333,
      "grad_norm": 23.125,
      "grad_norm_var": 0.85390625,
      "learning_rate": 6.591696538579334e-05,
      "loss": 7.1335,
      "loss/crossentropy": 2.097467389702797,
      "loss/hidden": 3.31953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17912068534642459,
      "step": 24220
    },
    {
      "epoch": 0.8076666666666666,
      "grad_norm": 23.75,
      "grad_norm_var": 3.476822916666667,
      "learning_rate": 6.577976332188649e-05,
      "loss": 7.1903,
      "loss/crossentropy": 2.0106175623834135,
      "loss/hidden": 3.3859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19294406063854694,
      "step": 24230
    },
    {
      "epoch": 0.808,
      "grad_norm": 25.875,
      "grad_norm_var": 1.7233723958333333,
      "learning_rate": 6.564245486606762e-05,
      "loss": 7.123,
      "loss/crossentropy": 2.056936872005463,
      "loss/hidden": 3.296484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16803365563973785,
      "step": 24240
    },
    {
      "epoch": 0.8083333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 1.75,
      "learning_rate": 6.550504137351576e-05,
      "loss": 7.0223,
      "loss/crossentropy": 2.026827494055033,
      "loss/hidden": 3.321875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18043983895331622,
      "step": 24250
    },
    {
      "epoch": 0.8086666666666666,
      "grad_norm": 26.125,
      "grad_norm_var": 52.36451822916667,
      "learning_rate": 6.536752420044659e-05,
      "loss": 7.0505,
      "loss/crossentropy": 2.047990356385708,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16095355469733477,
      "step": 24260
    },
    {
      "epoch": 0.809,
      "grad_norm": 24.75,
      "grad_norm_var": 51.09791666666667,
      "learning_rate": 6.522990470409909e-05,
      "loss": 7.1775,
      "loss/crossentropy": 2.093078485131264,
      "loss/hidden": 3.343359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17120972126722336,
      "step": 24270
    },
    {
      "epoch": 0.8093333333333333,
      "grad_norm": 23.875,
      "grad_norm_var": 1.6280598958333334,
      "learning_rate": 6.509218424272216e-05,
      "loss": 7.1735,
      "loss/crossentropy": 2.125036987662315,
      "loss/hidden": 3.366796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19020479824393988,
      "step": 24280
    },
    {
      "epoch": 0.8096666666666666,
      "grad_norm": 23.375,
      "grad_norm_var": 63.603125,
      "learning_rate": 6.495436417556113e-05,
      "loss": 7.1969,
      "loss/crossentropy": 2.22238949239254,
      "loss/hidden": 3.383984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19780659209936857,
      "step": 24290
    },
    {
      "epoch": 0.81,
      "grad_norm": 24.25,
      "grad_norm_var": 11.257291666666667,
      "learning_rate": 6.481644586284442e-05,
      "loss": 7.153,
      "loss/crossentropy": 2.0770174629986284,
      "loss/hidden": 3.31796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18271327950060368,
      "step": 24300
    },
    {
      "epoch": 0.8103333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 0.8643229166666667,
      "learning_rate": 6.46784306657701e-05,
      "loss": 7.1539,
      "loss/crossentropy": 1.8965822540223598,
      "loss/hidden": 3.353515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17321830820292233,
      "step": 24310
    },
    {
      "epoch": 0.8106666666666666,
      "grad_norm": 25.25,
      "grad_norm_var": 1.559375,
      "learning_rate": 6.454031994649247e-05,
      "loss": 7.1674,
      "loss/crossentropy": 2.2343272864818573,
      "loss/hidden": 3.285546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17637284398078917,
      "step": 24320
    },
    {
      "epoch": 0.811,
      "grad_norm": 196.0,
      "grad_norm_var": 1813.99375,
      "learning_rate": 6.440211506810852e-05,
      "loss": 7.2401,
      "loss/crossentropy": 2.118020176887512,
      "loss/hidden": 3.42890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18733559399843216,
      "step": 24330
    },
    {
      "epoch": 0.8113333333333334,
      "grad_norm": 24.375,
      "grad_norm_var": 1817.9728515625,
      "learning_rate": 6.426381739464466e-05,
      "loss": 7.1611,
      "loss/crossentropy": 2.0687691517174245,
      "loss/hidden": 3.313671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18494962928816677,
      "step": 24340
    },
    {
      "epoch": 0.8116666666666666,
      "grad_norm": 24.25,
      "grad_norm_var": 2.7593098958333333,
      "learning_rate": 6.412542829104307e-05,
      "loss": 7.1438,
      "loss/crossentropy": 2.1410858571529388,
      "loss/hidden": 3.366796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1797313429415226,
      "step": 24350
    },
    {
      "epoch": 0.812,
      "grad_norm": 23.875,
      "grad_norm_var": 1.2186848958333334,
      "learning_rate": 6.398694912314831e-05,
      "loss": 7.1624,
      "loss/crossentropy": 2.146064803004265,
      "loss/hidden": 3.25234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17778887879103422,
      "step": 24360
    },
    {
      "epoch": 0.8123333333333334,
      "grad_norm": 24.25,
      "grad_norm_var": 0.9973307291666667,
      "learning_rate": 6.38483812576939e-05,
      "loss": 7.0275,
      "loss/crossentropy": 2.1565047204494476,
      "loss/hidden": 3.282421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17124725691974163,
      "step": 24370
    },
    {
      "epoch": 0.8126666666666666,
      "grad_norm": 23.0,
      "grad_norm_var": 0.5893229166666667,
      "learning_rate": 6.370972606228872e-05,
      "loss": 7.1234,
      "loss/crossentropy": 2.0467451363801956,
      "loss/hidden": 3.420703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1872189924120903,
      "step": 24380
    },
    {
      "epoch": 0.813,
      "grad_norm": 24.75,
      "grad_norm_var": 0.5145833333333333,
      "learning_rate": 6.357098490540355e-05,
      "loss": 7.1545,
      "loss/crossentropy": 2.3109287858009337,
      "loss/hidden": 3.271875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1918891828507185,
      "step": 24390
    },
    {
      "epoch": 0.8133333333333334,
      "grad_norm": 23.375,
      "grad_norm_var": 0.9212890625,
      "learning_rate": 6.343215915635762e-05,
      "loss": 7.1035,
      "loss/crossentropy": 1.956181785464287,
      "loss/hidden": 3.404296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1630766457878053,
      "step": 24400
    },
    {
      "epoch": 0.8136666666666666,
      "grad_norm": 25.0,
      "grad_norm_var": 0.709375,
      "learning_rate": 6.329325018530501e-05,
      "loss": 7.0542,
      "loss/crossentropy": 1.9934518307447433,
      "loss/hidden": 3.31015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16185767110437155,
      "step": 24410
    },
    {
      "epoch": 0.814,
      "grad_norm": 23.125,
      "grad_norm_var": 5.9931640625,
      "learning_rate": 6.315425936322118e-05,
      "loss": 7.0992,
      "loss/crossentropy": 2.089629125595093,
      "loss/hidden": 3.338671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1817337304353714,
      "step": 24420
    },
    {
      "epoch": 0.8143333333333334,
      "grad_norm": 24.5,
      "grad_norm_var": 5.65,
      "learning_rate": 6.301518806188946e-05,
      "loss": 7.0823,
      "loss/crossentropy": 2.0498588502407076,
      "loss/hidden": 3.274609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17004711236804723,
      "step": 24430
    },
    {
      "epoch": 0.8146666666666667,
      "grad_norm": 27.0,
      "grad_norm_var": 1.5229166666666667,
      "learning_rate": 6.287603765388743e-05,
      "loss": 7.2639,
      "loss/crossentropy": 2.05265491604805,
      "loss/hidden": 3.2953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16803640704602002,
      "step": 24440
    },
    {
      "epoch": 0.815,
      "grad_norm": 26.125,
      "grad_norm_var": 2.348372395833333,
      "learning_rate": 6.273680951257342e-05,
      "loss": 7.1844,
      "loss/crossentropy": 2.1695328533649443,
      "loss/hidden": 3.35703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18274456169456244,
      "step": 24450
    },
    {
      "epoch": 0.8153333333333334,
      "grad_norm": 26.625,
      "grad_norm_var": 1.5375,
      "learning_rate": 6.259750501207302e-05,
      "loss": 7.18,
      "loss/crossentropy": 2.132620003819466,
      "loss/hidden": 3.33515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17444018907845021,
      "step": 24460
    },
    {
      "epoch": 0.8156666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 0.8046223958333333,
      "learning_rate": 6.245812552726538e-05,
      "loss": 7.1452,
      "loss/crossentropy": 2.058624839782715,
      "loss/hidden": 3.30390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1701804917305708,
      "step": 24470
    },
    {
      "epoch": 0.816,
      "grad_norm": 25.5,
      "grad_norm_var": 1.4427083333333333,
      "learning_rate": 6.231867243376977e-05,
      "loss": 7.0437,
      "loss/crossentropy": 2.1087178610265256,
      "loss/hidden": 3.196875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16274321246892215,
      "step": 24480
    },
    {
      "epoch": 0.8163333333333334,
      "grad_norm": 25.125,
      "grad_norm_var": 1.4010416666666667,
      "learning_rate": 6.217914710793189e-05,
      "loss": 6.9728,
      "loss/crossentropy": 1.9185438066720963,
      "loss/hidden": 3.347265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1684217657893896,
      "step": 24490
    },
    {
      "epoch": 0.8166666666666667,
      "grad_norm": 24.5,
      "grad_norm_var": 0.509375,
      "learning_rate": 6.203955092681039e-05,
      "loss": 7.0605,
      "loss/crossentropy": 2.115895939618349,
      "loss/hidden": 3.401171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18307006321847438,
      "step": 24500
    },
    {
      "epoch": 0.817,
      "grad_norm": 23.5,
      "grad_norm_var": 1.1372395833333333,
      "learning_rate": 6.189988526816323e-05,
      "loss": 7.0337,
      "loss/crossentropy": 2.096031680703163,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1889460150152445,
      "step": 24510
    },
    {
      "epoch": 0.8173333333333334,
      "grad_norm": 24.0,
      "grad_norm_var": 1.6379557291666667,
      "learning_rate": 6.176015151043407e-05,
      "loss": 7.2482,
      "loss/crossentropy": 2.0701269775629045,
      "loss/hidden": 3.2984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1742158493027091,
      "step": 24520
    },
    {
      "epoch": 0.8176666666666667,
      "grad_norm": 24.25,
      "grad_norm_var": 2.842967612297891e+18,
      "learning_rate": 6.16203510327387e-05,
      "loss": 7.0644,
      "loss/crossentropy": 2.0755894117057325,
      "loss/hidden": 3.527734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16671819221228362,
      "step": 24530
    },
    {
      "epoch": 0.818,
      "grad_norm": 25.125,
      "grad_norm_var": 3.0311848958333334,
      "learning_rate": 6.148048521485134e-05,
      "loss": 7.0163,
      "loss/crossentropy": 2.0209048211574556,
      "loss/hidden": 3.2140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15955890230834485,
      "step": 24540
    },
    {
      "epoch": 0.8183333333333334,
      "grad_norm": 24.125,
      "grad_norm_var": 2.5462890625,
      "learning_rate": 6.134055543719121e-05,
      "loss": 7.0369,
      "loss/crossentropy": 1.9814843587577342,
      "loss/hidden": 3.271484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16640124581754207,
      "step": 24550
    },
    {
      "epoch": 0.8186666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 0.7041015625,
      "learning_rate": 6.120056308080872e-05,
      "loss": 6.9686,
      "loss/crossentropy": 2.104407861828804,
      "loss/hidden": 3.325390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18350574728101493,
      "step": 24560
    },
    {
      "epoch": 0.819,
      "grad_norm": 24.0,
      "grad_norm_var": 1.1535807291666667,
      "learning_rate": 6.106050952737186e-05,
      "loss": 6.955,
      "loss/crossentropy": 2.0084666229784487,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1645617727190256,
      "step": 24570
    },
    {
      "epoch": 0.8193333333333334,
      "grad_norm": 25.375,
      "grad_norm_var": 1.9801432291666667,
      "learning_rate": 6.0920396159152716e-05,
      "loss": 7.0885,
      "loss/crossentropy": 2.1339985907077788,
      "loss/hidden": 3.247265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17009613076224922,
      "step": 24580
    },
    {
      "epoch": 0.8196666666666667,
      "grad_norm": 24.5,
      "grad_norm_var": 2.2291666666666665,
      "learning_rate": 6.078022435901364e-05,
      "loss": 7.0881,
      "loss/crossentropy": 2.0973347425460815,
      "loss/hidden": 3.33125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18192722033709288,
      "step": 24590
    },
    {
      "epoch": 0.82,
      "grad_norm": 24.125,
      "grad_norm_var": 1.88125,
      "learning_rate": 6.06399955103937e-05,
      "loss": 7.169,
      "loss/crossentropy": 1.9335032500326634,
      "loss/hidden": 3.326171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17163177412003278,
      "step": 24600
    },
    {
      "epoch": 0.8203333333333334,
      "grad_norm": 22.375,
      "grad_norm_var": 1.2608723958333334,
      "learning_rate": 6.049971099729502e-05,
      "loss": 7.1524,
      "loss/crossentropy": 2.197794906795025,
      "loss/hidden": 3.253515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18091356940567493,
      "step": 24610
    },
    {
      "epoch": 0.8206666666666667,
      "grad_norm": 25.0,
      "grad_norm_var": 3.07377709315215e+18,
      "learning_rate": 6.035937220426915e-05,
      "loss": 7.0232,
      "loss/crossentropy": 2.0041457399725915,
      "loss/hidden": 3.27578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1686849119141698,
      "step": 24620
    },
    {
      "epoch": 0.821,
      "grad_norm": 23.25,
      "grad_norm_var": 3.073777092874557e+18,
      "learning_rate": 6.0218980516403265e-05,
      "loss": 7.1444,
      "loss/crossentropy": 1.9922945663332938,
      "loss/hidden": 3.185546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15499509871006012,
      "step": 24630
    },
    {
      "epoch": 0.8213333333333334,
      "grad_norm": 25.0,
      "grad_norm_var": 0.7931640625,
      "learning_rate": 6.007853731930667e-05,
      "loss": 7.0009,
      "loss/crossentropy": 2.0803733453154565,
      "loss/hidden": 3.4109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2030915966257453,
      "step": 24640
    },
    {
      "epoch": 0.8216666666666667,
      "grad_norm": 24.375,
      "grad_norm_var": 1.1309895833333334,
      "learning_rate": 5.993804399909704e-05,
      "loss": 7.0855,
      "loss/crossentropy": 2.0983700484037398,
      "loss/hidden": 3.289453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1855665436014533,
      "step": 24650
    },
    {
      "epoch": 0.822,
      "grad_norm": 24.25,
      "grad_norm_var": 0.6684895833333333,
      "learning_rate": 5.97975019423867e-05,
      "loss": 7.0473,
      "loss/crossentropy": 2.035327473282814,
      "loss/hidden": 3.296484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.168466529622674,
      "step": 24660
    },
    {
      "epoch": 0.8223333333333334,
      "grad_norm": 25.125,
      "grad_norm_var": 0.9580729166666667,
      "learning_rate": 5.9656912536269015e-05,
      "loss": 7.1414,
      "loss/crossentropy": 2.1208567664027216,
      "loss/hidden": 3.266796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17649125978350638,
      "step": 24670
    },
    {
      "epoch": 0.8226666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 1.2436848958333333,
      "learning_rate": 5.951627716830467e-05,
      "loss": 7.0739,
      "loss/crossentropy": 2.098179739713669,
      "loss/hidden": 3.323046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16574389152228833,
      "step": 24680
    },
    {
      "epoch": 0.823,
      "grad_norm": 24.75,
      "grad_norm_var": 3.40625,
      "learning_rate": 5.937559722650799e-05,
      "loss": 7.0056,
      "loss/crossentropy": 1.9866340532898903,
      "loss/hidden": 3.21015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15324429739266635,
      "step": 24690
    },
    {
      "epoch": 0.8233333333333334,
      "grad_norm": 23.75,
      "grad_norm_var": 1.1768229166666666,
      "learning_rate": 5.923487409933316e-05,
      "loss": 7.0449,
      "loss/crossentropy": 2.0189765483140945,
      "loss/hidden": 3.226953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1633864961564541,
      "step": 24700
    },
    {
      "epoch": 0.8236666666666667,
      "grad_norm": 24.75,
      "grad_norm_var": 2.551041666666667,
      "learning_rate": 5.909410917566066e-05,
      "loss": 7.1172,
      "loss/crossentropy": 1.9779780194163323,
      "loss/hidden": 3.369921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16957656461745502,
      "step": 24710
    },
    {
      "epoch": 0.824,
      "grad_norm": 23.0,
      "grad_norm_var": 2.0374348958333335,
      "learning_rate": 5.8953303844783456e-05,
      "loss": 7.0346,
      "loss/crossentropy": 2.046160864830017,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17642345037311316,
      "step": 24720
    },
    {
      "epoch": 0.8243333333333334,
      "grad_norm": 25.625,
      "grad_norm_var": 3.0152302976861993e+18,
      "learning_rate": 5.881245949639331e-05,
      "loss": 7.1386,
      "loss/crossentropy": 2.0644598096609115,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16755576469004155,
      "step": 24730
    },
    {
      "epoch": 0.8246666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 1.5059895833333334,
      "learning_rate": 5.86715775205671e-05,
      "loss": 6.9054,
      "loss/crossentropy": 1.9000537507236004,
      "loss/hidden": 3.348828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16331597846001386,
      "step": 24740
    },
    {
      "epoch": 0.825,
      "grad_norm": 23.375,
      "grad_norm_var": 1.2119140625,
      "learning_rate": 5.8530659307753036e-05,
      "loss": 7.0357,
      "loss/crossentropy": 1.8462681017816067,
      "loss/hidden": 3.323046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1659678179770708,
      "step": 24750
    },
    {
      "epoch": 0.8253333333333334,
      "grad_norm": 23.125,
      "grad_norm_var": 1.2677083333333334,
      "learning_rate": 5.838970624875698e-05,
      "loss": 7.0251,
      "loss/crossentropy": 2.1098924592137336,
      "loss/hidden": 3.2328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16376893278211355,
      "step": 24760
    },
    {
      "epoch": 0.8256666666666667,
      "grad_norm": 26.25,
      "grad_norm_var": 1.5848307291666666,
      "learning_rate": 5.824871973472874e-05,
      "loss": 7.0887,
      "loss/crossentropy": 1.9424061939120292,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16495383866131305,
      "step": 24770
    },
    {
      "epoch": 0.826,
      "grad_norm": 4898947072.0,
      "grad_norm_var": 1.4999801359186788e+18,
      "learning_rate": 5.8107701157148277e-05,
      "loss": 7.0898,
      "loss/crossentropy": 2.0248693346977236,
      "loss/hidden": 3.4078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17345572579652072,
      "step": 24780
    },
    {
      "epoch": 0.8263333333333334,
      "grad_norm": 25.625,
      "grad_norm_var": 1.4999801358166175e+18,
      "learning_rate": 5.796665190781201e-05,
      "loss": 6.9785,
      "loss/crossentropy": 1.9292976334691048,
      "loss/hidden": 3.349609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17304837796837091,
      "step": 24790
    },
    {
      "epoch": 0.8266666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 32.87024739583333,
      "learning_rate": 5.782557337881911e-05,
      "loss": 7.1747,
      "loss/crossentropy": 1.8966447107493878,
      "loss/hidden": 3.32578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16593249971047044,
      "step": 24800
    },
    {
      "epoch": 0.827,
      "grad_norm": 5066719232.0,
      "grad_norm_var": 1.6044777186466813e+18,
      "learning_rate": 5.768446696255769e-05,
      "loss": 7.1285,
      "loss/crossentropy": 1.9656455472111702,
      "loss/hidden": 3.52421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17714616544544698,
      "step": 24810
    },
    {
      "epoch": 0.8273333333333334,
      "grad_norm": 22.375,
      "grad_norm_var": 1.6044777203778104e+18,
      "learning_rate": 5.754333405169111e-05,
      "loss": 6.9896,
      "loss/crossentropy": 2.0341189607977865,
      "loss/hidden": 3.303515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17659138450399042,
      "step": 24820
    },
    {
      "epoch": 0.8276666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 2.066666666666667,
      "learning_rate": 5.740217603914423e-05,
      "loss": 7.0219,
      "loss/crossentropy": 1.9185968987643718,
      "loss/hidden": 3.372265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1869355977512896,
      "step": 24830
    },
    {
      "epoch": 0.828,
      "grad_norm": 24.625,
      "grad_norm_var": 0.9889973958333333,
      "learning_rate": 5.726099431808963e-05,
      "loss": 7.1146,
      "loss/crossentropy": 1.8310720384120942,
      "loss/hidden": 3.32109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16051160339266063,
      "step": 24840
    },
    {
      "epoch": 0.8283333333333334,
      "grad_norm": 24.875,
      "grad_norm_var": 0.5910807291666667,
      "learning_rate": 5.7119790281933914e-05,
      "loss": 7.0388,
      "loss/crossentropy": 1.9527421653270722,
      "loss/hidden": 3.23203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16238325983285903,
      "step": 24850
    },
    {
      "epoch": 0.8286666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 89.24583333333334,
      "learning_rate": 5.6978565324303926e-05,
      "loss": 7.0605,
      "loss/crossentropy": 2.168795867264271,
      "loss/hidden": 3.24453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16646072771400214,
      "step": 24860
    },
    {
      "epoch": 0.829,
      "grad_norm": 22.875,
      "grad_norm_var": 89.57057291666666,
      "learning_rate": 5.683732083903296e-05,
      "loss": 7.0862,
      "loss/crossentropy": 1.9611302673816682,
      "loss/hidden": 3.26796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1669299216940999,
      "step": 24870
    },
    {
      "epoch": 0.8293333333333334,
      "grad_norm": 23.25,
      "grad_norm_var": 1.1806640625,
      "learning_rate": 5.669605822014706e-05,
      "loss": 7.0333,
      "loss/crossentropy": 1.7856550820171833,
      "loss/hidden": 3.243359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15327755445614458,
      "step": 24880
    },
    {
      "epoch": 0.8296666666666667,
      "grad_norm": 24.75,
      "grad_norm_var": 0.8072916666666666,
      "learning_rate": 5.655477886185126e-05,
      "loss": 7.0163,
      "loss/crossentropy": 2.0259492844343185,
      "loss/hidden": 3.324609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16790905371308326,
      "step": 24890
    },
    {
      "epoch": 0.83,
      "grad_norm": 24.5,
      "grad_norm_var": 0.8129557291666667,
      "learning_rate": 5.641348415851577e-05,
      "loss": 6.97,
      "loss/crossentropy": 1.9602381430566311,
      "loss/hidden": 3.240625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1515656548552215,
      "step": 24900
    },
    {
      "epoch": 0.8303333333333334,
      "grad_norm": 23.875,
      "grad_norm_var": 0.9968098958333333,
      "learning_rate": 5.62721755046623e-05,
      "loss": 6.9703,
      "loss/crossentropy": 2.0206805035471915,
      "loss/hidden": 3.434765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18460522294044496,
      "step": 24910
    },
    {
      "epoch": 0.8306666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 0.8238932291666666,
      "learning_rate": 5.61308542949502e-05,
      "loss": 7.0159,
      "loss/crossentropy": 1.9096168451011182,
      "loss/hidden": 3.27421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16171670304611324,
      "step": 24920
    },
    {
      "epoch": 0.831,
      "grad_norm": 24.75,
      "grad_norm_var": 0.5723307291666667,
      "learning_rate": 5.598952192416274e-05,
      "loss": 7.0482,
      "loss/crossentropy": 1.9502201959490777,
      "loss/hidden": 3.251953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1745383620262146,
      "step": 24930
    },
    {
      "epoch": 0.8313333333333334,
      "grad_norm": 26.875,
      "grad_norm_var": 1.8233723958333334,
      "learning_rate": 5.584817978719338e-05,
      "loss": 7.0207,
      "loss/crossentropy": 2.020615467429161,
      "loss/hidden": 3.23203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1621037432923913,
      "step": 24940
    },
    {
      "epoch": 0.8316666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 0.9497395833333333,
      "learning_rate": 5.570682927903194e-05,
      "loss": 7.0464,
      "loss/crossentropy": 1.9485878251492976,
      "loss/hidden": 3.305078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18183569833636284,
      "step": 24950
    },
    {
      "epoch": 0.832,
      "grad_norm": 22.625,
      "grad_norm_var": 0.57265625,
      "learning_rate": 5.556547179475088e-05,
      "loss": 6.9525,
      "loss/crossentropy": 2.003249977529049,
      "loss/hidden": 3.172265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15923047866672277,
      "step": 24960
    },
    {
      "epoch": 0.8323333333333334,
      "grad_norm": 24.375,
      "grad_norm_var": 0.4988932291666667,
      "learning_rate": 5.54241087294915e-05,
      "loss": 7.0322,
      "loss/crossentropy": 1.9297384425997735,
      "loss/hidden": 3.25859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1763775937259197,
      "step": 24970
    },
    {
      "epoch": 0.8326666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 1.0848307291666666,
      "learning_rate": 5.528274147845016e-05,
      "loss": 6.994,
      "loss/crossentropy": 2.1030173070728777,
      "loss/hidden": 3.31796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17390758330002426,
      "step": 24980
    },
    {
      "epoch": 0.833,
      "grad_norm": 23.25,
      "grad_norm_var": 1.94765625,
      "learning_rate": 5.514137143686459e-05,
      "loss": 7.0266,
      "loss/crossentropy": 2.0625434547662733,
      "loss/hidden": 3.228125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1578001905232668,
      "step": 24990
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 0.7910807291666667,
      "learning_rate": 5.500000000000001e-05,
      "loss": 6.9959,
      "loss/crossentropy": 2.1564994513988496,
      "loss/hidden": 3.234765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16419483684003353,
      "step": 25000
    },
    {
      "epoch": 0.8336666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.3046223958333334,
      "learning_rate": 5.485862856313543e-05,
      "loss": 6.9643,
      "loss/crossentropy": 1.9692196190357207,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17642919681966304,
      "step": 25010
    },
    {
      "epoch": 0.834,
      "grad_norm": 25.0,
      "grad_norm_var": 1.1301432291666667,
      "learning_rate": 5.4717258521549855e-05,
      "loss": 7.0045,
      "loss/crossentropy": 1.896971306949854,
      "loss/hidden": 3.316015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16555657889693975,
      "step": 25020
    },
    {
      "epoch": 0.8343333333333334,
      "grad_norm": 23.0,
      "grad_norm_var": 5.253125,
      "learning_rate": 5.4575891270508526e-05,
      "loss": 7.0076,
      "loss/crossentropy": 1.9228805772960187,
      "loss/hidden": 3.23671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1604012963362038,
      "step": 25030
    },
    {
      "epoch": 0.8346666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 4.692708333333333,
      "learning_rate": 5.443452820524913e-05,
      "loss": 7.1268,
      "loss/crossentropy": 1.9976628370583058,
      "loss/hidden": 3.33828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18949662614613771,
      "step": 25040
    },
    {
      "epoch": 0.835,
      "grad_norm": 23.25,
      "grad_norm_var": 0.9931640625,
      "learning_rate": 5.429317072096808e-05,
      "loss": 6.9171,
      "loss/crossentropy": 1.95694150775671,
      "loss/hidden": 3.30703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17416810244321823,
      "step": 25050
    },
    {
      "epoch": 0.8353333333333334,
      "grad_norm": 23.0,
      "grad_norm_var": 1.4254557291666667,
      "learning_rate": 5.4151820212806633e-05,
      "loss": 6.9901,
      "loss/crossentropy": 1.967911347746849,
      "loss/hidden": 3.346875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16883484926074743,
      "step": 25060
    },
    {
      "epoch": 0.8356666666666667,
      "grad_norm": 24.5,
      "grad_norm_var": 1.0718098958333333,
      "learning_rate": 5.401047807583728e-05,
      "loss": 7.0916,
      "loss/crossentropy": 1.9769475132226944,
      "loss/hidden": 3.325390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1776350039988756,
      "step": 25070
    },
    {
      "epoch": 0.836,
      "grad_norm": 24.0,
      "grad_norm_var": 0.6205729166666667,
      "learning_rate": 5.3869145705049814e-05,
      "loss": 7.1016,
      "loss/crossentropy": 2.0979168742895125,
      "loss/hidden": 3.24453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17412376143038272,
      "step": 25080
    },
    {
      "epoch": 0.8363333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 1.0655598958333334,
      "learning_rate": 5.372782449533771e-05,
      "loss": 7.0239,
      "loss/crossentropy": 2.2201668590307237,
      "loss/hidden": 3.15703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16662366669625045,
      "step": 25090
    },
    {
      "epoch": 0.8366666666666667,
      "grad_norm": 24.5,
      "grad_norm_var": 0.7947916666666667,
      "learning_rate": 5.358651584148423e-05,
      "loss": 7.0296,
      "loss/crossentropy": 1.9929725021123885,
      "loss/hidden": 3.25859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16217339746654033,
      "step": 25100
    },
    {
      "epoch": 0.837,
      "grad_norm": 23.5,
      "grad_norm_var": 0.9895182291666667,
      "learning_rate": 5.344522113814875e-05,
      "loss": 6.9488,
      "loss/crossentropy": 1.940374694764614,
      "loss/hidden": 3.068359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15328829986974596,
      "step": 25110
    },
    {
      "epoch": 0.8373333333333334,
      "grad_norm": 24.625,
      "grad_norm_var": 1.365625,
      "learning_rate": 5.330394177985295e-05,
      "loss": 7.0492,
      "loss/crossentropy": 1.9210307955741883,
      "loss/hidden": 3.316796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16172695737332105,
      "step": 25120
    },
    {
      "epoch": 0.8376666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 1.39140625,
      "learning_rate": 5.316267916096705e-05,
      "loss": 6.838,
      "loss/crossentropy": 2.1268305659294127,
      "loss/hidden": 3.221484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1686540162190795,
      "step": 25130
    },
    {
      "epoch": 0.838,
      "grad_norm": 23.125,
      "grad_norm_var": 1.3035807291666666,
      "learning_rate": 5.302143467569609e-05,
      "loss": 7.0213,
      "loss/crossentropy": 2.2016376689076425,
      "loss/hidden": 3.239453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.185344104655087,
      "step": 25140
    },
    {
      "epoch": 0.8383333333333334,
      "grad_norm": 23.625,
      "grad_norm_var": 0.7619140625,
      "learning_rate": 5.288020971806609e-05,
      "loss": 7.0272,
      "loss/crossentropy": 1.9791180558502675,
      "loss/hidden": 3.294140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16557303946465254,
      "step": 25150
    },
    {
      "epoch": 0.8386666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 0.9837890625,
      "learning_rate": 5.273900568191038e-05,
      "loss": 6.871,
      "loss/crossentropy": 2.078375779092312,
      "loss/hidden": 3.248046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1593981696292758,
      "step": 25160
    },
    {
      "epoch": 0.839,
      "grad_norm": 22.375,
      "grad_norm_var": 1.7968098958333334,
      "learning_rate": 5.259782396085579e-05,
      "loss": 6.963,
      "loss/crossentropy": 1.9973531074821949,
      "loss/hidden": 3.166796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15650712680071593,
      "step": 25170
    },
    {
      "epoch": 0.8393333333333334,
      "grad_norm": 22.375,
      "grad_norm_var": 1.8041666666666667,
      "learning_rate": 5.24566659483089e-05,
      "loss": 6.8987,
      "loss/crossentropy": 1.9296558193862439,
      "loss/hidden": 3.121875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1516895718872547,
      "step": 25180
    },
    {
      "epoch": 0.8396666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 0.7635416666666667,
      "learning_rate": 5.231553303744232e-05,
      "loss": 6.9936,
      "loss/crossentropy": 2.114676037430763,
      "loss/hidden": 3.329296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17353012934327125,
      "step": 25190
    },
    {
      "epoch": 0.84,
      "grad_norm": 22.5,
      "grad_norm_var": 0.4205729166666667,
      "learning_rate": 5.2174426621180906e-05,
      "loss": 6.9546,
      "loss/crossentropy": 2.0760419577360154,
      "loss/hidden": 3.226171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16167073398828508,
      "step": 25200
    },
    {
      "epoch": 0.8403333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 2.5940733667158523e+18,
      "learning_rate": 5.2033348092187996e-05,
      "loss": 6.8677,
      "loss/crossentropy": 1.9620779484510422,
      "loss/hidden": 3.191796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1550289398059249,
      "step": 25210
    },
    {
      "epoch": 0.8406666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 2.594073366910468e+18,
      "learning_rate": 5.189229884285174e-05,
      "loss": 6.9043,
      "loss/crossentropy": 1.9976623475551605,
      "loss/hidden": 3.2375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16729694679379464,
      "step": 25220
    },
    {
      "epoch": 0.841,
      "grad_norm": 25.25,
      "grad_norm_var": 2.8238932291666665,
      "learning_rate": 5.175128026527128e-05,
      "loss": 7.0103,
      "loss/crossentropy": 2.192066043615341,
      "loss/hidden": 3.353515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20732564926147462,
      "step": 25230
    },
    {
      "epoch": 0.8413333333333334,
      "grad_norm": 23.375,
      "grad_norm_var": 2.5020182291666666,
      "learning_rate": 5.161029375124303e-05,
      "loss": 6.9139,
      "loss/crossentropy": 1.877561804652214,
      "loss/hidden": 3.178515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15400900933891534,
      "step": 25240
    },
    {
      "epoch": 0.8416666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.5604166666666666,
      "learning_rate": 5.1469340692246995e-05,
      "loss": 6.9029,
      "loss/crossentropy": 2.0022835403680803,
      "loss/hidden": 3.1765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16735202725976706,
      "step": 25250
    },
    {
      "epoch": 0.842,
      "grad_norm": 22.125,
      "grad_norm_var": 4.509375,
      "learning_rate": 5.1328422479432915e-05,
      "loss": 6.9624,
      "loss/crossentropy": 1.8773959062993526,
      "loss/hidden": 3.25546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15194975724443793,
      "step": 25260
    },
    {
      "epoch": 0.8423333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 1.1247395833333333,
      "learning_rate": 5.11875405036067e-05,
      "loss": 6.9817,
      "loss/crossentropy": 2.165113839507103,
      "loss/hidden": 3.247265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16993321236222983,
      "step": 25270
    },
    {
      "epoch": 0.8426666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 0.9184895833333333,
      "learning_rate": 5.104669615521657e-05,
      "loss": 6.923,
      "loss/crossentropy": 2.084018699079752,
      "loss/hidden": 3.15546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16481912517920136,
      "step": 25280
    },
    {
      "epoch": 0.843,
      "grad_norm": 22.375,
      "grad_norm_var": 1.2830729166666666,
      "learning_rate": 5.090589082433935e-05,
      "loss": 6.9785,
      "loss/crossentropy": 2.2565275222063064,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17223725598305464,
      "step": 25290
    },
    {
      "epoch": 0.8433333333333334,
      "grad_norm": 23.0,
      "grad_norm_var": 1.3186848958333333,
      "learning_rate": 5.076512590066685e-05,
      "loss": 7.0165,
      "loss/crossentropy": 2.0910873889923094,
      "loss/hidden": 3.279296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16965348087251186,
      "step": 25300
    },
    {
      "epoch": 0.8436666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.065625,
      "learning_rate": 5.062440277349203e-05,
      "loss": 6.9454,
      "loss/crossentropy": 2.2037932582199575,
      "loss/hidden": 3.130078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16220169235020876,
      "step": 25310
    },
    {
      "epoch": 0.844,
      "grad_norm": 22.75,
      "grad_norm_var": 2.582747395833333,
      "learning_rate": 5.048372283169532e-05,
      "loss": 6.9965,
      "loss/crossentropy": 2.1661527663469315,
      "loss/hidden": 3.18984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16337131895124912,
      "step": 25320
    },
    {
      "epoch": 0.8443333333333334,
      "grad_norm": 23.0,
      "grad_norm_var": 1.9525390625,
      "learning_rate": 5.0343087463730996e-05,
      "loss": 6.9872,
      "loss/crossentropy": 2.1112076193094254,
      "loss/hidden": 3.278125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16945380419492723,
      "step": 25330
    },
    {
      "epoch": 0.8446666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 0.6872395833333333,
      "learning_rate": 5.020249805761331e-05,
      "loss": 7.0327,
      "loss/crossentropy": 1.9474051117897033,
      "loss/hidden": 3.345703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1742366042919457,
      "step": 25340
    },
    {
      "epoch": 0.845,
      "grad_norm": 22.25,
      "grad_norm_var": 0.9494140625,
      "learning_rate": 5.006195600090297e-05,
      "loss": 7.0176,
      "loss/crossentropy": 2.0254900440573693,
      "loss/hidden": 3.362109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1812945833429694,
      "step": 25350
    },
    {
      "epoch": 0.8453333333333334,
      "grad_norm": 22.5,
      "grad_norm_var": 1.2004557291666667,
      "learning_rate": 4.992146268069333e-05,
      "loss": 6.899,
      "loss/crossentropy": 1.9700914964079856,
      "loss/hidden": 3.333984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17236013878136874,
      "step": 25360
    },
    {
      "epoch": 0.8456666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 1.1629557291666666,
      "learning_rate": 4.9781019483596746e-05,
      "loss": 6.9598,
      "loss/crossentropy": 2.0217429384589196,
      "loss/hidden": 3.219921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1671298835426569,
      "step": 25370
    },
    {
      "epoch": 0.846,
      "grad_norm": 23.25,
      "grad_norm_var": 1.7785807291666667,
      "learning_rate": 4.9640627795730866e-05,
      "loss": 6.88,
      "loss/crossentropy": 1.943567543849349,
      "loss/hidden": 3.249609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1804880647920072,
      "step": 25380
    },
    {
      "epoch": 0.8463333333333334,
      "grad_norm": 24.875,
      "grad_norm_var": 2.3009765625,
      "learning_rate": 4.9500289002704984e-05,
      "loss": 6.8981,
      "loss/crossentropy": 2.006009988486767,
      "loss/hidden": 3.3328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17958016656339168,
      "step": 25390
    },
    {
      "epoch": 0.8466666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 4.074934895833334,
      "learning_rate": 4.936000448960631e-05,
      "loss": 7.0513,
      "loss/crossentropy": 2.2360173970460893,
      "loss/hidden": 3.230078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18158553242683412,
      "step": 25400
    },
    {
      "epoch": 0.847,
      "grad_norm": 24.0,
      "grad_norm_var": 2.7462890625,
      "learning_rate": 4.9219775640986366e-05,
      "loss": 6.924,
      "loss/crossentropy": 1.8591318547725677,
      "loss/hidden": 3.469140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1813932742923498,
      "step": 25410
    },
    {
      "epoch": 0.8473333333333334,
      "grad_norm": 22.75,
      "grad_norm_var": 1.3337890625,
      "learning_rate": 4.907960384084729e-05,
      "loss": 6.9502,
      "loss/crossentropy": 2.1037135615944864,
      "loss/hidden": 3.21953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16334721986204387,
      "step": 25420
    },
    {
      "epoch": 0.8476666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 1.86015625,
      "learning_rate": 4.8939490472628136e-05,
      "loss": 6.8949,
      "loss/crossentropy": 1.9349641531705857,
      "loss/hidden": 3.32734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16478215027600526,
      "step": 25430
    },
    {
      "epoch": 0.848,
      "grad_norm": 22.75,
      "grad_norm_var": 0.5947265625,
      "learning_rate": 4.87994369191913e-05,
      "loss": 6.9594,
      "loss/crossentropy": 2.1374287590384484,
      "loss/hidden": 3.138671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1534802021458745,
      "step": 25440
    },
    {
      "epoch": 0.8483333333333334,
      "grad_norm": 22.75,
      "grad_norm_var": 0.9608723958333333,
      "learning_rate": 4.865944456280879e-05,
      "loss": 6.876,
      "loss/crossentropy": 1.952788008749485,
      "loss/hidden": 3.270703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16467729359865188,
      "step": 25450
    },
    {
      "epoch": 0.8486666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 11.014518229166667,
      "learning_rate": 4.851951478514866e-05,
      "loss": 7.014,
      "loss/crossentropy": 2.1284357413649557,
      "loss/hidden": 3.238671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16996914581395686,
      "step": 25460
    },
    {
      "epoch": 0.849,
      "grad_norm": 23.25,
      "grad_norm_var": 11.498958333333333,
      "learning_rate": 4.837964896726132e-05,
      "loss": 6.9063,
      "loss/crossentropy": 2.096763235330582,
      "loss/hidden": 3.18984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.162611080147326,
      "step": 25470
    },
    {
      "epoch": 0.8493333333333334,
      "grad_norm": 20.125,
      "grad_norm_var": 1.0518229166666666,
      "learning_rate": 4.823984848956593e-05,
      "loss": 6.8635,
      "loss/crossentropy": 2.0680422112345695,
      "loss/hidden": 3.23984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15710455570369958,
      "step": 25480
    },
    {
      "epoch": 0.8496666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.9317057291666666,
      "learning_rate": 4.810011473183677e-05,
      "loss": 6.8994,
      "loss/crossentropy": 2.0600294291973116,
      "loss/hidden": 3.29375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16484030187129975,
      "step": 25490
    },
    {
      "epoch": 0.85,
      "grad_norm": 23.25,
      "grad_norm_var": 8.0212890625,
      "learning_rate": 4.7960449073189606e-05,
      "loss": 6.9659,
      "loss/crossentropy": 1.971318671107292,
      "loss/hidden": 3.330859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18275586236268282,
      "step": 25500
    },
    {
      "epoch": 0.8503333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 0.8061848958333333,
      "learning_rate": 4.7820852892068114e-05,
      "loss": 6.9837,
      "loss/crossentropy": 1.809413194656372,
      "loss/hidden": 3.2796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15677141044288873,
      "step": 25510
    },
    {
      "epoch": 0.8506666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 0.7009765625,
      "learning_rate": 4.768132756623024e-05,
      "loss": 6.8624,
      "loss/crossentropy": 1.8316463023424148,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1573034648783505,
      "step": 25520
    },
    {
      "epoch": 0.851,
      "grad_norm": 21.0,
      "grad_norm_var": 0.953125,
      "learning_rate": 4.754187447273461e-05,
      "loss": 6.8507,
      "loss/crossentropy": 1.9352269530296327,
      "loss/hidden": 3.27578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15878485683351756,
      "step": 25530
    },
    {
      "epoch": 0.8513333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 1.61015625,
      "learning_rate": 4.740249498792698e-05,
      "loss": 6.8568,
      "loss/crossentropy": 2.010533457994461,
      "loss/hidden": 3.3015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17276135310530663,
      "step": 25540
    },
    {
      "epoch": 0.8516666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 0.8395833333333333,
      "learning_rate": 4.7263190487426564e-05,
      "loss": 6.9387,
      "loss/crossentropy": 2.134304754436016,
      "loss/hidden": 3.274609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1872491927817464,
      "step": 25550
    },
    {
      "epoch": 0.852,
      "grad_norm": 21.75,
      "grad_norm_var": 0.9747395833333333,
      "learning_rate": 4.7123962346112584e-05,
      "loss": 6.886,
      "loss/crossentropy": 2.072511524707079,
      "loss/hidden": 3.144921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1534841218031943,
      "step": 25560
    },
    {
      "epoch": 0.8523333333333334,
      "grad_norm": 23.375,
      "grad_norm_var": 0.7905598958333333,
      "learning_rate": 4.698481193811054e-05,
      "loss": 6.8584,
      "loss/crossentropy": 2.1463774725794793,
      "loss/hidden": 3.184375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16341485381126403,
      "step": 25570
    },
    {
      "epoch": 0.8526666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 2.0010416666666666,
      "learning_rate": 4.684574063677881e-05,
      "loss": 6.9106,
      "loss/crossentropy": 2.065951754152775,
      "loss/hidden": 3.2859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16066975481808185,
      "step": 25580
    },
    {
      "epoch": 0.853,
      "grad_norm": 29.5,
      "grad_norm_var": 5.664518229166666,
      "learning_rate": 4.6706749814694997e-05,
      "loss": 6.7972,
      "loss/crossentropy": 2.0351175434887407,
      "loss/hidden": 3.193359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16005632225424052,
      "step": 25590
    },
    {
      "epoch": 0.8533333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 6.993684895833334,
      "learning_rate": 4.6567840843642384e-05,
      "loss": 6.9496,
      "loss/crossentropy": 2.0523830361664297,
      "loss/hidden": 3.146875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15730505622923374,
      "step": 25600
    },
    {
      "epoch": 0.8536666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 7.039518229166666,
      "learning_rate": 4.642901509459646e-05,
      "loss": 6.7785,
      "loss/crossentropy": 2.1218873113393784,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16152856182307004,
      "step": 25610
    },
    {
      "epoch": 0.854,
      "grad_norm": 21.625,
      "grad_norm_var": 6.968489583333334,
      "learning_rate": 4.629027393771129e-05,
      "loss": 6.8866,
      "loss/crossentropy": 1.9210114896297454,
      "loss/hidden": 3.155078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14758066833019257,
      "step": 25620
    },
    {
      "epoch": 0.8543333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 1.2405598958333333,
      "learning_rate": 4.61516187423061e-05,
      "loss": 6.899,
      "loss/crossentropy": 2.0598912209272386,
      "loss/hidden": 3.251953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1691096406430006,
      "step": 25630
    },
    {
      "epoch": 0.8546666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 1.0854166666666667,
      "learning_rate": 4.601305087685169e-05,
      "loss": 6.9173,
      "loss/crossentropy": 2.205300694704056,
      "loss/hidden": 3.23671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17890902925282717,
      "step": 25640
    },
    {
      "epoch": 0.855,
      "grad_norm": 22.0,
      "grad_norm_var": 1.8083333333333333,
      "learning_rate": 4.587457170895696e-05,
      "loss": 6.868,
      "loss/crossentropy": 2.148914474248886,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17795586232095956,
      "step": 25650
    },
    {
      "epoch": 0.8553333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.0822265625,
      "learning_rate": 4.573618260535536e-05,
      "loss": 6.8924,
      "loss/crossentropy": 1.9687716513872147,
      "loss/hidden": 3.313671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18561361059546472,
      "step": 25660
    },
    {
      "epoch": 0.8556666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 284.1080729166667,
      "learning_rate": 4.559788493189149e-05,
      "loss": 6.8702,
      "loss/crossentropy": 2.0562238790094853,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1623332142829895,
      "step": 25670
    },
    {
      "epoch": 0.856,
      "grad_norm": 20.5,
      "grad_norm_var": 282.97682291666666,
      "learning_rate": 4.545968005350756e-05,
      "loss": 6.8716,
      "loss/crossentropy": 2.110888344049454,
      "loss/hidden": 3.22578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16720662415027618,
      "step": 25680
    },
    {
      "epoch": 0.8563333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 0.49765625,
      "learning_rate": 4.5321569334229916e-05,
      "loss": 6.8537,
      "loss/crossentropy": 1.988807225972414,
      "loss/hidden": 3.259375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16363519094884396,
      "step": 25690
    },
    {
      "epoch": 0.8566666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 4.025,
      "learning_rate": 4.5183554137155606e-05,
      "loss": 6.84,
      "loss/crossentropy": 1.9043106943368913,
      "loss/hidden": 3.165625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14644915759563445,
      "step": 25700
    },
    {
      "epoch": 0.857,
      "grad_norm": 24.0,
      "grad_norm_var": 2.8580729166666665,
      "learning_rate": 4.504563582443889e-05,
      "loss": 6.964,
      "loss/crossentropy": 2.051722328364849,
      "loss/hidden": 3.206640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17551100347191095,
      "step": 25710
    },
    {
      "epoch": 0.8573333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 0.96640625,
      "learning_rate": 4.490781575727786e-05,
      "loss": 6.8005,
      "loss/crossentropy": 2.009612035751343,
      "loss/hidden": 3.187109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14919841345399618,
      "step": 25720
    },
    {
      "epoch": 0.8576666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 0.5322916666666667,
      "learning_rate": 4.4770095295900924e-05,
      "loss": 6.8377,
      "loss/crossentropy": 2.0377252414822578,
      "loss/hidden": 3.158203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18529058247804642,
      "step": 25730
    },
    {
      "epoch": 0.858,
      "grad_norm": 5771362304.0,
      "grad_norm_var": 2.0817889116463037e+18,
      "learning_rate": 4.463247579955344e-05,
      "loss": 7.0199,
      "loss/crossentropy": 1.9959793724119663,
      "loss/hidden": 3.283203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16647218465805053,
      "step": 25740
    },
    {
      "epoch": 0.8583333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 2.081788911934872e+18,
      "learning_rate": 4.4494958626484276e-05,
      "loss": 6.8499,
      "loss/crossentropy": 2.0159687541425226,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15637603402137756,
      "step": 25750
    },
    {
      "epoch": 0.8586666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.3205729166666667,
      "learning_rate": 4.43575451339324e-05,
      "loss": 6.9875,
      "loss/crossentropy": 2.023764471709728,
      "loss/hidden": 3.19609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15618936270475386,
      "step": 25760
    },
    {
      "epoch": 0.859,
      "grad_norm": 20.75,
      "grad_norm_var": 4.481184895833334,
      "learning_rate": 4.4220236678113536e-05,
      "loss": 6.8386,
      "loss/crossentropy": 2.0717529535293577,
      "loss/hidden": 3.173828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1514882566407323,
      "step": 25770
    },
    {
      "epoch": 0.8593333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 4.6025390625,
      "learning_rate": 4.4083034614206674e-05,
      "loss": 6.9052,
      "loss/crossentropy": 2.154834459722042,
      "loss/hidden": 3.181640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15938506573438643,
      "step": 25780
    },
    {
      "epoch": 0.8596666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 1.3811848958333333,
      "learning_rate": 4.3945940296340824e-05,
      "loss": 6.9774,
      "loss/crossentropy": 2.141025458276272,
      "loss/hidden": 3.224609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1737861094996333,
      "step": 25790
    },
    {
      "epoch": 0.86,
      "grad_norm": 21.125,
      "grad_norm_var": 1.7874348958333333,
      "learning_rate": 4.380895507758155e-05,
      "loss": 6.8555,
      "loss/crossentropy": 1.9630529195070268,
      "loss/hidden": 3.222265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16939648147672415,
      "step": 25800
    },
    {
      "epoch": 0.8603333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 1.5978515625,
      "learning_rate": 4.367208030991764e-05,
      "loss": 6.8227,
      "loss/crossentropy": 1.893832840025425,
      "loss/hidden": 3.196484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15906968284398318,
      "step": 25810
    },
    {
      "epoch": 0.8606666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.7520182291666666,
      "learning_rate": 4.353531734424782e-05,
      "loss": 6.9535,
      "loss/crossentropy": 1.9903650164604187,
      "loss/hidden": 3.324609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17482327315956353,
      "step": 25820
    },
    {
      "epoch": 0.861,
      "grad_norm": 22.375,
      "grad_norm_var": 0.61640625,
      "learning_rate": 4.3398667530367306e-05,
      "loss": 6.8628,
      "loss/crossentropy": 2.053640615940094,
      "loss/hidden": 3.285546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19147922191768885,
      "step": 25830
    },
    {
      "epoch": 0.8613333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 56.209309895833336,
      "learning_rate": 4.3262132216954656e-05,
      "loss": 6.9087,
      "loss/crossentropy": 2.0847674936056135,
      "loss/hidden": 3.31015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17146144881844522,
      "step": 25840
    },
    {
      "epoch": 0.8616666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 3.0233723958333334,
      "learning_rate": 4.312571275155823e-05,
      "loss": 6.8788,
      "loss/crossentropy": 2.0731761664152146,
      "loss/hidden": 3.144921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16782324127852916,
      "step": 25850
    },
    {
      "epoch": 0.862,
      "grad_norm": 22.875,
      "grad_norm_var": 2.468489583333333,
      "learning_rate": 4.2989410480583116e-05,
      "loss": 6.8898,
      "loss/crossentropy": 1.9479005321860314,
      "loss/hidden": 3.233984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15610639620572328,
      "step": 25860
    },
    {
      "epoch": 0.8623333333333333,
      "grad_norm": 26.0,
      "grad_norm_var": 489.34583333333336,
      "learning_rate": 4.285322674927768e-05,
      "loss": 6.858,
      "loss/crossentropy": 1.9504839967936278,
      "loss/hidden": 3.195703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16356785856187345,
      "step": 25870
    },
    {
      "epoch": 0.8626666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 2.1858723958333335,
      "learning_rate": 4.271716290172038e-05,
      "loss": 6.9462,
      "loss/crossentropy": 2.123225097358227,
      "loss/hidden": 3.27109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16322279013693333,
      "step": 25880
    },
    {
      "epoch": 0.863,
      "grad_norm": 21.5,
      "grad_norm_var": 1.52265625,
      "learning_rate": 4.258122028080646e-05,
      "loss": 6.8839,
      "loss/crossentropy": 2.133731837570667,
      "loss/hidden": 3.16640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16982710380107163,
      "step": 25890
    },
    {
      "epoch": 0.8633333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 1.2479166666666666,
      "learning_rate": 4.2445400228234686e-05,
      "loss": 6.8131,
      "loss/crossentropy": 2.0845893740653993,
      "loss/hidden": 3.18203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17494960688054562,
      "step": 25900
    },
    {
      "epoch": 0.8636666666666667,
      "grad_norm": 24.625,
      "grad_norm_var": 1.909375,
      "learning_rate": 4.230970408449418e-05,
      "loss": 6.8778,
      "loss/crossentropy": 2.051340754330158,
      "loss/hidden": 3.279296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17781901303678752,
      "step": 25910
    },
    {
      "epoch": 0.864,
      "grad_norm": 20.875,
      "grad_norm_var": 2.33515625,
      "learning_rate": 4.217413318885108e-05,
      "loss": 6.8758,
      "loss/crossentropy": 2.0643552422523497,
      "loss/hidden": 3.170703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1577897410839796,
      "step": 25920
    },
    {
      "epoch": 0.8643333333333333,
      "grad_norm": 24.875,
      "grad_norm_var": 1.6145182291666667,
      "learning_rate": 4.203868887933541e-05,
      "loss": 6.8634,
      "loss/crossentropy": 2.0819766454398634,
      "loss/hidden": 3.286328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16645964570343494,
      "step": 25930
    },
    {
      "epoch": 0.8646666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.2541666666666667,
      "learning_rate": 4.190337249272778e-05,
      "loss": 6.7763,
      "loss/crossentropy": 2.0638196393847466,
      "loss/hidden": 3.2515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1723222305998206,
      "step": 25940
    },
    {
      "epoch": 0.865,
      "grad_norm": 21.375,
      "grad_norm_var": 0.8973307291666667,
      "learning_rate": 4.176818536454633e-05,
      "loss": 6.9368,
      "loss/crossentropy": 1.9603420421481133,
      "loss/hidden": 3.14609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14999181237071751,
      "step": 25950
    },
    {
      "epoch": 0.8653333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 0.8802083333333334,
      "learning_rate": 4.163312882903344e-05,
      "loss": 6.7771,
      "loss/crossentropy": 2.026094362139702,
      "loss/hidden": 3.26875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15913072023540736,
      "step": 25960
    },
    {
      "epoch": 0.8656666666666667,
      "grad_norm": 24.5,
      "grad_norm_var": 1.1759765625,
      "learning_rate": 4.1498204219142575e-05,
      "loss": 6.8418,
      "loss/crossentropy": 2.0223079532384873,
      "loss/hidden": 3.153125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1593662802129984,
      "step": 25970
    },
    {
      "epoch": 0.866,
      "grad_norm": 21.25,
      "grad_norm_var": 1.265625,
      "learning_rate": 4.1363412866525185e-05,
      "loss": 6.8294,
      "loss/crossentropy": 2.1484047800302504,
      "loss/hidden": 3.16875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15932908514514565,
      "step": 25980
    },
    {
      "epoch": 0.8663333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 0.91640625,
      "learning_rate": 4.1228756101517475e-05,
      "loss": 6.7557,
      "loss/crossentropy": 1.8646988950669765,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17402277877554298,
      "step": 25990
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 0.76640625,
      "learning_rate": 4.109423525312738e-05,
      "loss": 6.9098,
      "loss/crossentropy": 2.212962034344673,
      "loss/hidden": 3.174609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16355629544705153,
      "step": 26000
    },
    {
      "epoch": 0.867,
      "grad_norm": 23.0,
      "grad_norm_var": 0.5978515625,
      "learning_rate": 4.0959851649021344e-05,
      "loss": 6.9753,
      "loss/crossentropy": 1.9954494401812553,
      "loss/hidden": 3.270703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17405376564711333,
      "step": 26010
    },
    {
      "epoch": 0.8673333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 0.75390625,
      "learning_rate": 4.0825606615511305e-05,
      "loss": 7.0159,
      "loss/crossentropy": 2.1162398613989355,
      "loss/hidden": 3.087890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14784672670066357,
      "step": 26020
    },
    {
      "epoch": 0.8676666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 2.594073367574846e+18,
      "learning_rate": 4.069150147754151e-05,
      "loss": 6.9345,
      "loss/crossentropy": 1.9555442228913307,
      "loss/hidden": 3.191796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.157724441960454,
      "step": 26030
    },
    {
      "epoch": 0.868,
      "grad_norm": 22.25,
      "grad_norm_var": 0.5895833333333333,
      "learning_rate": 4.0557537558675583e-05,
      "loss": 7.0644,
      "loss/crossentropy": 2.1746340721845625,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1773978678509593,
      "step": 26040
    },
    {
      "epoch": 0.8683333333333333,
      "grad_norm": 24.25,
      "grad_norm_var": 1.3176432291666667,
      "learning_rate": 4.042371618108329e-05,
      "loss": 6.7896,
      "loss/crossentropy": 1.9868990987539292,
      "loss/hidden": 3.216796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15773731619119644,
      "step": 26050
    },
    {
      "epoch": 0.8686666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 1.96015625,
      "learning_rate": 4.0290038665527596e-05,
      "loss": 6.8032,
      "loss/crossentropy": 2.1249034658074377,
      "loss/hidden": 3.162109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1534424176439643,
      "step": 26060
    },
    {
      "epoch": 0.869,
      "grad_norm": 24.125,
      "grad_norm_var": 2.8893229166666665,
      "learning_rate": 4.015650633135163e-05,
      "loss": 6.861,
      "loss/crossentropy": 2.0854105949401855,
      "loss/hidden": 3.12265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16376592293381692,
      "step": 26070
    },
    {
      "epoch": 0.8693333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 1.4309895833333333,
      "learning_rate": 4.00231204964656e-05,
      "loss": 6.8508,
      "loss/crossentropy": 2.0845695704221727,
      "loss/hidden": 3.164453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15720440819859505,
      "step": 26080
    },
    {
      "epoch": 0.8696666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 1.2332682291666666,
      "learning_rate": 3.9889882477333874e-05,
      "loss": 6.7856,
      "loss/crossentropy": 1.9149738550186157,
      "loss/hidden": 3.256640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15268718972802162,
      "step": 26090
    },
    {
      "epoch": 0.87,
      "grad_norm": 22.625,
      "grad_norm_var": 2.383072916666667,
      "learning_rate": 3.9756793588961896e-05,
      "loss": 6.895,
      "loss/crossentropy": 2.0855982795357706,
      "loss/hidden": 3.18046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15859134048223494,
      "step": 26100
    },
    {
      "epoch": 0.8703333333333333,
      "grad_norm": 23.875,
      "grad_norm_var": 1.2754557291666666,
      "learning_rate": 3.962385514488326e-05,
      "loss": 6.8528,
      "loss/crossentropy": 2.095623345673084,
      "loss/hidden": 3.217578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1637012053281069,
      "step": 26110
    },
    {
      "epoch": 0.8706666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 1.7705729166666666,
      "learning_rate": 3.949106845714674e-05,
      "loss": 6.8451,
      "loss/crossentropy": 1.8034477911889553,
      "loss/hidden": 3.085546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14811227219179274,
      "step": 26120
    },
    {
      "epoch": 0.871,
      "grad_norm": 22.375,
      "grad_norm_var": 14.495247395833333,
      "learning_rate": 3.9358434836303336e-05,
      "loss": 6.8776,
      "loss/crossentropy": 1.918418012559414,
      "loss/hidden": 3.282421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16268355417996644,
      "step": 26130
    },
    {
      "epoch": 0.8713333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.4895833333333333,
      "learning_rate": 3.922595559139336e-05,
      "loss": 6.8094,
      "loss/crossentropy": 2.0094055980443954,
      "loss/hidden": 3.13984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14857212770730258,
      "step": 26140
    },
    {
      "epoch": 0.8716666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 1.16640625,
      "learning_rate": 3.9093632029933435e-05,
      "loss": 6.8686,
      "loss/crossentropy": 1.9957379199564458,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14984978251159192,
      "step": 26150
    },
    {
      "epoch": 0.872,
      "grad_norm": 20.75,
      "grad_norm_var": 0.4947916666666667,
      "learning_rate": 3.896146545790372e-05,
      "loss": 6.7922,
      "loss/crossentropy": 2.0107031047344206,
      "loss/hidden": 3.17421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15825871471315622,
      "step": 26160
    },
    {
      "epoch": 0.8723333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 0.7457682291666666,
      "learning_rate": 3.882945717973493e-05,
      "loss": 6.873,
      "loss/crossentropy": 1.9550271481275558,
      "loss/hidden": 3.1921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15566041497513652,
      "step": 26170
    },
    {
      "epoch": 0.8726666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 0.5197916666666667,
      "learning_rate": 3.8697608498295445e-05,
      "loss": 6.8371,
      "loss/crossentropy": 2.016065427660942,
      "loss/hidden": 3.176953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1619328921660781,
      "step": 26180
    },
    {
      "epoch": 0.873,
      "grad_norm": 20.625,
      "grad_norm_var": 0.97890625,
      "learning_rate": 3.856592071487856e-05,
      "loss": 6.8235,
      "loss/crossentropy": 2.003811553120613,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1609561923891306,
      "step": 26190
    },
    {
      "epoch": 0.8733333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 1.50390625,
      "learning_rate": 3.843439512918949e-05,
      "loss": 6.8469,
      "loss/crossentropy": 2.0764830335974693,
      "loss/hidden": 3.256640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16151853874325753,
      "step": 26200
    },
    {
      "epoch": 0.8736666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.196875,
      "learning_rate": 3.830303303933271e-05,
      "loss": 6.7814,
      "loss/crossentropy": 2.1526197090744974,
      "loss/hidden": 3.108984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1596878958866,
      "step": 26210
    },
    {
      "epoch": 0.874,
      "grad_norm": 20.75,
      "grad_norm_var": 2.0893229166666667,
      "learning_rate": 3.817183574179899e-05,
      "loss": 6.9767,
      "loss/crossentropy": 2.1804853290319444,
      "loss/hidden": 3.18671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16332378438673914,
      "step": 26220
    },
    {
      "epoch": 0.8743333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.4337890625,
      "learning_rate": 3.804080453145269e-05,
      "loss": 6.8338,
      "loss/crossentropy": 2.0908204093575478,
      "loss/hidden": 3.300390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16485908310860395,
      "step": 26230
    },
    {
      "epoch": 0.8746666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 0.5223307291666667,
      "learning_rate": 3.790994070151895e-05,
      "loss": 6.8804,
      "loss/crossentropy": 2.14748295545578,
      "loss/hidden": 3.276953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17930770702660084,
      "step": 26240
    },
    {
      "epoch": 0.875,
      "grad_norm": 20.25,
      "grad_norm_var": 0.7072916666666667,
      "learning_rate": 3.777924554357096e-05,
      "loss": 6.7229,
      "loss/crossentropy": 2.000728341937065,
      "loss/hidden": 3.21328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1487280648201704,
      "step": 26250
    },
    {
      "epoch": 0.8753333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 2.13515625,
      "learning_rate": 3.7648720347517166e-05,
      "loss": 6.7624,
      "loss/crossentropy": 1.9981106102466584,
      "loss/hidden": 3.25703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15397127764299512,
      "step": 26260
    },
    {
      "epoch": 0.8756666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.5372395833333334,
      "learning_rate": 3.7518366401588536e-05,
      "loss": 6.8671,
      "loss/crossentropy": 2.229478067159653,
      "loss/hidden": 3.126171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15968595184385775,
      "step": 26270
    },
    {
      "epoch": 0.876,
      "grad_norm": 21.625,
      "grad_norm_var": 1.2525390625,
      "learning_rate": 3.738818499232589e-05,
      "loss": 6.786,
      "loss/crossentropy": 2.017266020178795,
      "loss/hidden": 3.18828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16191368382424115,
      "step": 26280
    },
    {
      "epoch": 0.8763333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.1780598958333333,
      "learning_rate": 3.725817740456721e-05,
      "loss": 7.0003,
      "loss/crossentropy": 2.014402036368847,
      "loss/hidden": 3.177734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15464963000267745,
      "step": 26290
    },
    {
      "epoch": 0.8766666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.271875,
      "learning_rate": 3.712834492143488e-05,
      "loss": 6.856,
      "loss/crossentropy": 1.9306327871978284,
      "loss/hidden": 3.261328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15594524987973274,
      "step": 26300
    },
    {
      "epoch": 0.877,
      "grad_norm": 21.0,
      "grad_norm_var": 0.88515625,
      "learning_rate": 3.699868882432309e-05,
      "loss": 6.8967,
      "loss/crossentropy": 1.9130300246179104,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13649473995901645,
      "step": 26310
    },
    {
      "epoch": 0.8773333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 2.0336566906021478e+18,
      "learning_rate": 3.686921039288519e-05,
      "loss": 7.0264,
      "loss/crossentropy": 2.181557595729828,
      "loss/hidden": 3.279296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16082917023450136,
      "step": 26320
    },
    {
      "epoch": 0.8776666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 2.0336566913151795e+18,
      "learning_rate": 3.673991090502101e-05,
      "loss": 6.8328,
      "loss/crossentropy": 1.9753350079059602,
      "loss/hidden": 3.13828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1500071782618761,
      "step": 26330
    },
    {
      "epoch": 0.878,
      "grad_norm": 22.5,
      "grad_norm_var": 1.1697916666666666,
      "learning_rate": 3.661079163686431e-05,
      "loss": 6.8732,
      "loss/crossentropy": 1.9919006183743477,
      "loss/hidden": 3.105859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1555755365639925,
      "step": 26340
    },
    {
      "epoch": 0.8783333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 1.1916015625,
      "learning_rate": 3.648185386277011e-05,
      "loss": 6.8612,
      "loss/crossentropy": 2.0109338417649267,
      "loss/hidden": 3.1859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15537302363663913,
      "step": 26350
    },
    {
      "epoch": 0.8786666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.0379557291666666,
      "learning_rate": 3.6353098855302215e-05,
      "loss": 6.7091,
      "loss/crossentropy": 1.9878887504339218,
      "loss/hidden": 3.0875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1486053698696196,
      "step": 26360
    },
    {
      "epoch": 0.879,
      "grad_norm": 21.5,
      "grad_norm_var": 0.5676432291666667,
      "learning_rate": 3.622452788522057e-05,
      "loss": 6.8374,
      "loss/crossentropy": 1.9497860811650753,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1838926389813423,
      "step": 26370
    },
    {
      "epoch": 0.8793333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 0.9098307291666666,
      "learning_rate": 3.609614222146872e-05,
      "loss": 6.8293,
      "loss/crossentropy": 2.1610096618533134,
      "loss/hidden": 3.177734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1660961801186204,
      "step": 26380
    },
    {
      "epoch": 0.8796666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 0.99140625,
      "learning_rate": 3.596794313116136e-05,
      "loss": 6.8184,
      "loss/crossentropy": 2.0240518391132354,
      "loss/hidden": 3.149609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16600796654820443,
      "step": 26390
    },
    {
      "epoch": 0.88,
      "grad_norm": 24.25,
      "grad_norm_var": 1.4854166666666666,
      "learning_rate": 3.583993187957173e-05,
      "loss": 6.8498,
      "loss/crossentropy": 1.9888987004756928,
      "loss/hidden": 3.249609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1616065276786685,
      "step": 26400
    },
    {
      "epoch": 0.8803333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 1.8791666666666667,
      "learning_rate": 3.571210973011924e-05,
      "loss": 6.8116,
      "loss/crossentropy": 1.8744437299668788,
      "loss/hidden": 3.220703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15525809191167356,
      "step": 26410
    },
    {
      "epoch": 0.8806666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 98.81608072916667,
      "learning_rate": 3.5584477944356845e-05,
      "loss": 6.9597,
      "loss/crossentropy": 2.1749876379966735,
      "loss/hidden": 3.2375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16630711518228053,
      "step": 26420
    },
    {
      "epoch": 0.881,
      "grad_norm": 21.5,
      "grad_norm_var": 98.72265625,
      "learning_rate": 3.5457037781958805e-05,
      "loss": 6.9383,
      "loss/crossentropy": 2.053211937844753,
      "loss/hidden": 3.176171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15977289276197554,
      "step": 26430
    },
    {
      "epoch": 0.8813333333333333,
      "grad_norm": 23.125,
      "grad_norm_var": 1.06015625,
      "learning_rate": 3.532979050070804e-05,
      "loss": 6.8057,
      "loss/crossentropy": 1.9794712126255036,
      "loss/hidden": 3.29609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16630720421671868,
      "step": 26440
    },
    {
      "epoch": 0.8816666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 4.742122395833333,
      "learning_rate": 3.520273735648382e-05,
      "loss": 6.7564,
      "loss/crossentropy": 2.0068790689110756,
      "loss/hidden": 3.21328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15001734271645545,
      "step": 26450
    },
    {
      "epoch": 0.882,
      "grad_norm": 20.875,
      "grad_norm_var": 0.8375,
      "learning_rate": 3.507587960324944e-05,
      "loss": 6.9896,
      "loss/crossentropy": 1.996173518896103,
      "loss/hidden": 3.202734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16484985016286374,
      "step": 26460
    },
    {
      "epoch": 0.8823333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 0.9186848958333333,
      "learning_rate": 3.494921849303967e-05,
      "loss": 6.9035,
      "loss/crossentropy": 2.044399265944958,
      "loss/hidden": 3.31796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17791436351835727,
      "step": 26470
    },
    {
      "epoch": 0.8826666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 1.3457682291666666,
      "learning_rate": 3.482275527594856e-05,
      "loss": 6.7077,
      "loss/crossentropy": 1.9672799199819564,
      "loss/hidden": 3.09609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14841998741030693,
      "step": 26480
    },
    {
      "epoch": 0.883,
      "grad_norm": 23.625,
      "grad_norm_var": 1.25390625,
      "learning_rate": 3.469649120011697e-05,
      "loss": 6.714,
      "loss/crossentropy": 2.0286851942539217,
      "loss/hidden": 3.160546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15806122818030416,
      "step": 26490
    },
    {
      "epoch": 0.8833333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 1.3455729166666666,
      "learning_rate": 3.45704275117204e-05,
      "loss": 6.8575,
      "loss/crossentropy": 2.0830163829028607,
      "loss/hidden": 3.194140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15631103357300163,
      "step": 26500
    },
    {
      "epoch": 0.8836666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 1.9254557291666667,
      "learning_rate": 3.444456545495652e-05,
      "loss": 6.8168,
      "loss/crossentropy": 1.9875051081180573,
      "loss/hidden": 3.215234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15791778452694416,
      "step": 26510
    },
    {
      "epoch": 0.884,
      "grad_norm": 21.125,
      "grad_norm_var": 1.2979166666666666,
      "learning_rate": 3.431890627203305e-05,
      "loss": 6.8636,
      "loss/crossentropy": 2.145845976471901,
      "loss/hidden": 3.14921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16650803480297327,
      "step": 26520
    },
    {
      "epoch": 0.8843333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 1.3427083333333334,
      "learning_rate": 3.419345120315538e-05,
      "loss": 6.8361,
      "loss/crossentropy": 2.108425536751747,
      "loss/hidden": 3.209765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16783894039690495,
      "step": 26530
    },
    {
      "epoch": 0.8846666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.2098307291666666,
      "learning_rate": 3.4068201486514376e-05,
      "loss": 6.9219,
      "loss/crossentropy": 2.0194236926734446,
      "loss/hidden": 3.217578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16996841207146646,
      "step": 26540
    },
    {
      "epoch": 0.885,
      "grad_norm": 21.375,
      "grad_norm_var": 4.703580729166666,
      "learning_rate": 3.394315835827421e-05,
      "loss": 6.9036,
      "loss/crossentropy": 2.0967435270547865,
      "loss/hidden": 3.17265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15975359827280045,
      "step": 26550
    },
    {
      "epoch": 0.8853333333333333,
      "grad_norm": 27.875,
      "grad_norm_var": 3.9785807291666666,
      "learning_rate": 3.381832305256004e-05,
      "loss": 6.9396,
      "loss/crossentropy": 2.10302966684103,
      "loss/hidden": 3.077734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17214497793465852,
      "step": 26560
    },
    {
      "epoch": 0.8856666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.9625138908734423e+18,
      "learning_rate": 3.3693696801445954e-05,
      "loss": 6.9578,
      "loss/crossentropy": 2.2149000599980355,
      "loss/hidden": 3.213671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17492201793938875,
      "step": 26570
    },
    {
      "epoch": 0.886,
      "grad_norm": 22.125,
      "grad_norm_var": 1.9625138910719027e+18,
      "learning_rate": 3.356928083494274e-05,
      "loss": 6.9037,
      "loss/crossentropy": 2.0742943078279494,
      "loss/hidden": 3.119140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15730843115597964,
      "step": 26580
    },
    {
      "epoch": 0.8863333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 2.6059895833333333,
      "learning_rate": 3.344507638098576e-05,
      "loss": 6.7874,
      "loss/crossentropy": 1.9956744939088822,
      "loss/hidden": 3.201953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15899997791275383,
      "step": 26590
    },
    {
      "epoch": 0.8866666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 0.6603515625,
      "learning_rate": 3.3321084665422807e-05,
      "loss": 6.8337,
      "loss/crossentropy": 1.9816527277231217,
      "loss/hidden": 3.175,
      "loss/jsd": 0.0,
      "loss/logits": 0.16425166334956884,
      "step": 26600
    },
    {
      "epoch": 0.887,
      "grad_norm": 20.5,
      "grad_norm_var": 1.3455729166666666,
      "learning_rate": 3.319730691200209e-05,
      "loss": 6.8578,
      "loss/crossentropy": 1.8931610018014908,
      "loss/hidden": 3.1734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15017597610130906,
      "step": 26610
    },
    {
      "epoch": 0.8873333333333333,
      "grad_norm": 23.625,
      "grad_norm_var": 2.134375,
      "learning_rate": 3.307374434236003e-05,
      "loss": 6.7593,
      "loss/crossentropy": 2.0294124722480773,
      "loss/hidden": 3.161328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15351739330217243,
      "step": 26620
    },
    {
      "epoch": 0.8876666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 19.565625,
      "learning_rate": 3.295039817600936e-05,
      "loss": 6.8753,
      "loss/crossentropy": 2.105466166138649,
      "loss/hidden": 3.216796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18532855240628124,
      "step": 26630
    },
    {
      "epoch": 0.888,
      "grad_norm": 21.25,
      "grad_norm_var": 15.985416666666667,
      "learning_rate": 3.2827269630326885e-05,
      "loss": 6.7157,
      "loss/crossentropy": 2.0061062544584276,
      "loss/hidden": 3.219921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15896273953840137,
      "step": 26640
    },
    {
      "epoch": 0.8883333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 9.217122395833334,
      "learning_rate": 3.270435992054166e-05,
      "loss": 6.9179,
      "loss/crossentropy": 2.0659444093704225,
      "loss/hidden": 3.2515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16416719797998666,
      "step": 26650
    },
    {
      "epoch": 0.8886666666666667,
      "grad_norm": 26.375,
      "grad_norm_var": 3.4905598958333335,
      "learning_rate": 3.258167025972292e-05,
      "loss": 6.851,
      "loss/crossentropy": 2.0915834248065948,
      "loss/hidden": 3.230078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15449760612100363,
      "step": 26660
    },
    {
      "epoch": 0.889,
      "grad_norm": 29.75,
      "grad_norm_var": 10.816080729166666,
      "learning_rate": 3.245920185876805e-05,
      "loss": 6.9643,
      "loss/crossentropy": 1.9756429754197598,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15356689458712935,
      "step": 26670
    },
    {
      "epoch": 0.8893333333333333,
      "grad_norm": 26.75,
      "grad_norm_var": 11.518489583333333,
      "learning_rate": 3.233695592639077e-05,
      "loss": 6.9679,
      "loss/crossentropy": 1.9231618136167525,
      "loss/hidden": 3.290625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15716882031410934,
      "step": 26680
    },
    {
      "epoch": 0.8896666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 13.483072916666666,
      "learning_rate": 3.221493366910903e-05,
      "loss": 6.8899,
      "loss/crossentropy": 1.9402207165956498,
      "loss/hidden": 3.172265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15298937689512968,
      "step": 26690
    },
    {
      "epoch": 0.89,
      "grad_norm": 23.25,
      "grad_norm_var": 12.5056640625,
      "learning_rate": 3.2093136291233296e-05,
      "loss": 6.8965,
      "loss/crossentropy": 1.9652688920497894,
      "loss/hidden": 3.266015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15768850333988665,
      "step": 26700
    },
    {
      "epoch": 0.8903333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 4.339518229166667,
      "learning_rate": 3.197156499485447e-05,
      "loss": 6.8229,
      "loss/crossentropy": 2.013945384323597,
      "loss/hidden": 3.150390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15189841520041228,
      "step": 26710
    },
    {
      "epoch": 0.8906666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 2.01640625,
      "learning_rate": 3.185022097983221e-05,
      "loss": 6.8226,
      "loss/crossentropy": 2.015190437436104,
      "loss/hidden": 3.262109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16249268716201187,
      "step": 26720
    },
    {
      "epoch": 0.891,
      "grad_norm": 26.875,
      "grad_norm_var": 4.39375,
      "learning_rate": 3.172910544378294e-05,
      "loss": 6.9557,
      "loss/crossentropy": 2.177249902486801,
      "loss/hidden": 3.132421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15406437516212462,
      "step": 26730
    },
    {
      "epoch": 0.8913333333333333,
      "grad_norm": 24.375,
      "grad_norm_var": 4.626497395833334,
      "learning_rate": 3.160821958206807e-05,
      "loss": 6.9043,
      "loss/crossentropy": 2.0702683687210084,
      "loss/hidden": 3.2078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1650611654855311,
      "step": 26740
    },
    {
      "epoch": 0.8916666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 3.2301432291666665,
      "learning_rate": 3.1487564587782306e-05,
      "loss": 6.9284,
      "loss/crossentropy": 2.2026931807398795,
      "loss/hidden": 3.140234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17769969888031484,
      "step": 26750
    },
    {
      "epoch": 0.892,
      "grad_norm": 22.875,
      "grad_norm_var": 3.2577473958333334,
      "learning_rate": 3.1367141651741694e-05,
      "loss": 6.838,
      "loss/crossentropy": 1.979924051463604,
      "loss/hidden": 3.16875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16592128686606883,
      "step": 26760
    },
    {
      "epoch": 0.8923333333333333,
      "grad_norm": 7348420608.0,
      "grad_norm_var": 3.374955317819448e+18,
      "learning_rate": 3.124695196247202e-05,
      "loss": 6.9768,
      "loss/crossentropy": 2.240220108628273,
      "loss/hidden": 3.144140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16037558643147348,
      "step": 26770
    },
    {
      "epoch": 0.8926666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 3.374955318079704e+18,
      "learning_rate": 3.112699670619696e-05,
      "loss": 6.8575,
      "loss/crossentropy": 2.125392961502075,
      "loss/hidden": 3.223046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16047360915690662,
      "step": 26780
    },
    {
      "epoch": 0.893,
      "grad_norm": 24.625,
      "grad_norm_var": 9.473958333333334,
      "learning_rate": 3.100727706682651e-05,
      "loss": 6.954,
      "loss/crossentropy": 2.044107362627983,
      "loss/hidden": 3.1625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16029341490939258,
      "step": 26790
    },
    {
      "epoch": 0.8933333333333333,
      "grad_norm": 24.125,
      "grad_norm_var": 8.245572916666667,
      "learning_rate": 3.088779422594514e-05,
      "loss": 6.9426,
      "loss/crossentropy": 1.9640724688768387,
      "loss/hidden": 3.24453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15900588724762202,
      "step": 26800
    },
    {
      "epoch": 0.8936666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 4.214322916666666,
      "learning_rate": 3.0768549362800294e-05,
      "loss": 6.9375,
      "loss/crossentropy": 2.050625918060541,
      "loss/hidden": 3.1703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16425505680963398,
      "step": 26810
    },
    {
      "epoch": 0.894,
      "grad_norm": 23.5,
      "grad_norm_var": 3.2604166666666665,
      "learning_rate": 3.064954365429059e-05,
      "loss": 6.9182,
      "loss/crossentropy": 1.9688321188092233,
      "loss/hidden": 3.227734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17398671787232162,
      "step": 26820
    },
    {
      "epoch": 0.8943333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 3.302018229166667,
      "learning_rate": 3.053077827495433e-05,
      "loss": 6.8169,
      "loss/crossentropy": 2.088005256652832,
      "loss/hidden": 3.047265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14643877744674683,
      "step": 26830
    },
    {
      "epoch": 0.8946666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 2.1304840813595853e+18,
      "learning_rate": 3.0412254396957896e-05,
      "loss": 6.8132,
      "loss/crossentropy": 2.170038291811943,
      "loss/hidden": 3.19765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16484488490968943,
      "step": 26840
    },
    {
      "epoch": 0.895,
      "grad_norm": 26.0,
      "grad_norm_var": 2.1304840811710513e+18,
      "learning_rate": 3.0293973190084068e-05,
      "loss": 6.7694,
      "loss/crossentropy": 1.9106760919094086,
      "loss/hidden": 3.17421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14406620375812054,
      "step": 26850
    },
    {
      "epoch": 0.8953333333333333,
      "grad_norm": 26.0,
      "grad_norm_var": 2.5884765625,
      "learning_rate": 3.0175935821720648e-05,
      "loss": 6.8457,
      "loss/crossentropy": 2.27715582549572,
      "loss/hidden": 3.127734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.158475461602211,
      "step": 26860
    },
    {
      "epoch": 0.8956666666666667,
      "grad_norm": 26.375,
      "grad_norm_var": 3.62890625,
      "learning_rate": 3.0058143456848765e-05,
      "loss": 6.7258,
      "loss/crossentropy": 1.9482488855719566,
      "loss/hidden": 3.14921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1498094605281949,
      "step": 26870
    },
    {
      "epoch": 0.896,
      "grad_norm": 21.125,
      "grad_norm_var": 1.4389704356790623e+18,
      "learning_rate": 2.994059725803156e-05,
      "loss": 6.7777,
      "loss/crossentropy": 2.0152445122599603,
      "loss/hidden": 3.187109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15422911364585162,
      "step": 26880
    },
    {
      "epoch": 0.8963333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 1.4389704356690657e+18,
      "learning_rate": 2.9823298385402492e-05,
      "loss": 6.8206,
      "loss/crossentropy": 2.0900501251220702,
      "loss/hidden": 3.166015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16731840167194606,
      "step": 26890
    },
    {
      "epoch": 0.8966666666666666,
      "grad_norm": 22.5,
      "grad_norm_var": 2.513641891262733e+18,
      "learning_rate": 2.9706247996654137e-05,
      "loss": 6.876,
      "loss/crossentropy": 1.9369783684611321,
      "loss/hidden": 3.293359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16292606424540282,
      "step": 26900
    },
    {
      "epoch": 0.897,
      "grad_norm": 26.5,
      "grad_norm_var": 6.4962890625,
      "learning_rate": 2.958944724702654e-05,
      "loss": 6.7905,
      "loss/crossentropy": 1.9939923129975796,
      "loss/hidden": 3.150390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15159244257956744,
      "step": 26910
    },
    {
      "epoch": 0.8973333333333333,
      "grad_norm": 26.75,
      "grad_norm_var": 2.792122395833333,
      "learning_rate": 2.947289728929597e-05,
      "loss": 6.8971,
      "loss/crossentropy": 2.078751567006111,
      "loss/hidden": 3.190234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17754473332315684,
      "step": 26920
    },
    {
      "epoch": 0.8976666666666666,
      "grad_norm": 25.0,
      "grad_norm_var": 1.6082682291666666,
      "learning_rate": 2.935659927376343e-05,
      "loss": 6.8012,
      "loss/crossentropy": 2.0356945395469666,
      "loss/hidden": 3.208984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16562622915953398,
      "step": 26930
    },
    {
      "epoch": 0.898,
      "grad_norm": 26.625,
      "grad_norm_var": 3.0184895833333334,
      "learning_rate": 2.924055434824342e-05,
      "loss": 6.7869,
      "loss/crossentropy": 2.1356831192970276,
      "loss/hidden": 3.251953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17853607889264822,
      "step": 26940
    },
    {
      "epoch": 0.8983333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 11.651822916666667,
      "learning_rate": 2.9124763658052478e-05,
      "loss": 6.8149,
      "loss/crossentropy": 1.9252381205558777,
      "loss/hidden": 3.224609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16029497589915992,
      "step": 26950
    },
    {
      "epoch": 0.8986666666666666,
      "grad_norm": 22.75,
      "grad_norm_var": 3.1830729166666667,
      "learning_rate": 2.900922834599797e-05,
      "loss": 6.9226,
      "loss/crossentropy": 2.205397879332304,
      "loss/hidden": 3.209765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15344799063168466,
      "step": 26960
    },
    {
      "epoch": 0.899,
      "grad_norm": 23.875,
      "grad_norm_var": 2.919205729166667,
      "learning_rate": 2.8893949552366796e-05,
      "loss": 6.8206,
      "loss/crossentropy": 2.09553968757391,
      "loss/hidden": 3.194140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16381179327145218,
      "step": 26970
    },
    {
      "epoch": 0.8993333333333333,
      "grad_norm": 25.875,
      "grad_norm_var": 3.3749348958333334,
      "learning_rate": 2.8778928414914085e-05,
      "loss": 6.8139,
      "loss/crossentropy": 2.029978536069393,
      "loss/hidden": 3.2390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1680966019630432,
      "step": 26980
    },
    {
      "epoch": 0.8996666666666666,
      "grad_norm": 24.875,
      "grad_norm_var": 2.4541015625,
      "learning_rate": 2.8664166068852062e-05,
      "loss": 6.8405,
      "loss/crossentropy": 1.9429209612309932,
      "loss/hidden": 3.27578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16744533190503716,
      "step": 26990
    },
    {
      "epoch": 0.9,
      "grad_norm": 21.75,
      "grad_norm_var": 3.388541666666667,
      "learning_rate": 2.854966364683872e-05,
      "loss": 6.8216,
      "loss/crossentropy": 1.9241836979985236,
      "loss/hidden": 3.226953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16613443605601788,
      "step": 27000
    },
    {
      "epoch": 0.9003333333333333,
      "grad_norm": 26.125,
      "grad_norm_var": 2.4205729166666665,
      "learning_rate": 2.843542227896676e-05,
      "loss": 6.8825,
      "loss/crossentropy": 2.012719841301441,
      "loss/hidden": 3.23515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15762700429186224,
      "step": 27010
    },
    {
      "epoch": 0.9006666666666666,
      "grad_norm": 22.625,
      "grad_norm_var": 2.0228515625,
      "learning_rate": 2.8321443092752338e-05,
      "loss": 6.7563,
      "loss/crossentropy": 1.9895868554711342,
      "loss/hidden": 3.196484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17497619222849609,
      "step": 27020
    },
    {
      "epoch": 0.901,
      "grad_norm": 24.0,
      "grad_norm_var": 3.278059895833333,
      "learning_rate": 2.8207727213124035e-05,
      "loss": 6.7559,
      "loss/crossentropy": 1.9740510500967503,
      "loss/hidden": 3.12265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1432420744560659,
      "step": 27030
    },
    {
      "epoch": 0.9013333333333333,
      "grad_norm": 24.125,
      "grad_norm_var": 2.713997395833333,
      "learning_rate": 2.809427576241167e-05,
      "loss": 6.8997,
      "loss/crossentropy": 2.1658532321453094,
      "loss/hidden": 3.162109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1637007687240839,
      "step": 27040
    },
    {
      "epoch": 0.9016666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 3.376822916666667,
      "learning_rate": 2.798108986033523e-05,
      "loss": 6.9438,
      "loss/crossentropy": 2.1903593868017195,
      "loss/hidden": 3.13359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1633994322270155,
      "step": 27050
    },
    {
      "epoch": 0.902,
      "grad_norm": 21.875,
      "grad_norm_var": 5.095572916666667,
      "learning_rate": 2.7868170623993905e-05,
      "loss": 7.0145,
      "loss/crossentropy": 2.0305363297462464,
      "loss/hidden": 3.247265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17958665620535613,
      "step": 27060
    },
    {
      "epoch": 0.9023333333333333,
      "grad_norm": 25.625,
      "grad_norm_var": 3.6702473958333335,
      "learning_rate": 2.7755519167854944e-05,
      "loss": 6.7408,
      "loss/crossentropy": 1.86053267121315,
      "loss/hidden": 3.155078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14872891837731003,
      "step": 27070
    },
    {
      "epoch": 0.9026666666666666,
      "grad_norm": 21.0,
      "grad_norm_var": 4.24375,
      "learning_rate": 2.764313660374277e-05,
      "loss": 6.8407,
      "loss/crossentropy": 2.007214891910553,
      "loss/hidden": 3.1125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15470210947096347,
      "step": 27080
    },
    {
      "epoch": 0.903,
      "grad_norm": 23.375,
      "grad_norm_var": 6.474739583333333,
      "learning_rate": 2.753102404082789e-05,
      "loss": 6.9169,
      "loss/crossentropy": 2.1241619139909744,
      "loss/hidden": 3.139453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15222108382731675,
      "step": 27090
    },
    {
      "epoch": 0.9033333333333333,
      "grad_norm": 23.625,
      "grad_norm_var": 2.134375,
      "learning_rate": 2.741918258561607e-05,
      "loss": 6.7749,
      "loss/crossentropy": 1.9174664333462714,
      "loss/hidden": 3.1,
      "loss/jsd": 0.0,
      "loss/logits": 0.14461091123521327,
      "step": 27100
    },
    {
      "epoch": 0.9036666666666666,
      "grad_norm": 25.625,
      "grad_norm_var": 1.6541015625,
      "learning_rate": 2.7307613341937282e-05,
      "loss": 6.8602,
      "loss/crossentropy": 2.0042121566832067,
      "loss/hidden": 3.255859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1733078501187265,
      "step": 27110
    },
    {
      "epoch": 0.904,
      "grad_norm": 25.875,
      "grad_norm_var": 3.5332682291666666,
      "learning_rate": 2.7196317410934964e-05,
      "loss": 6.886,
      "loss/crossentropy": 2.019241477549076,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19402055349200964,
      "step": 27120
    },
    {
      "epoch": 0.9043333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 2.234375,
      "learning_rate": 2.7085295891054997e-05,
      "loss": 6.9037,
      "loss/crossentropy": 2.0694904938340186,
      "loss/hidden": 3.2640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16915742177516221,
      "step": 27130
    },
    {
      "epoch": 0.9046666666666666,
      "grad_norm": 28.375,
      "grad_norm_var": 8.305143229166667,
      "learning_rate": 2.697454987803495e-05,
      "loss": 6.8822,
      "loss/crossentropy": 2.0155827552080154,
      "loss/hidden": 3.23671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16962535195052625,
      "step": 27140
    },
    {
      "epoch": 0.905,
      "grad_norm": 22.0,
      "grad_norm_var": 10.370768229166666,
      "learning_rate": 2.6864080464893282e-05,
      "loss": 6.7997,
      "loss/crossentropy": 2.08170278519392,
      "loss/hidden": 3.153515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1523496536538005,
      "step": 27150
    },
    {
      "epoch": 0.9053333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 1.3744140625,
      "learning_rate": 2.6753888741918488e-05,
      "loss": 6.9908,
      "loss/crossentropy": 2.0863103806972503,
      "loss/hidden": 3.188671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15311094475910067,
      "step": 27160
    },
    {
      "epoch": 0.9056666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 1.1864583333333334,
      "learning_rate": 2.6643975796658406e-05,
      "loss": 6.8451,
      "loss/crossentropy": 2.150225210189819,
      "loss/hidden": 3.04375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14159671682864428,
      "step": 27170
    },
    {
      "epoch": 0.906,
      "grad_norm": 22.75,
      "grad_norm_var": 0.8052083333333333,
      "learning_rate": 2.65343427139094e-05,
      "loss": 6.8341,
      "loss/crossentropy": 2.0567213878035546,
      "loss/hidden": 3.133984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15704135950654746,
      "step": 27180
    },
    {
      "epoch": 0.9063333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 0.8254557291666667,
      "learning_rate": 2.642499057570578e-05,
      "loss": 6.8178,
      "loss/crossentropy": 2.0047308802604675,
      "loss/hidden": 3.1453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15476641841232777,
      "step": 27190
    },
    {
      "epoch": 0.9066666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 0.9639973958333333,
      "learning_rate": 2.6315920461308964e-05,
      "loss": 6.8925,
      "loss/crossentropy": 2.0975175350904465,
      "loss/hidden": 3.23984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17165146991610528,
      "step": 27200
    },
    {
      "epoch": 0.907,
      "grad_norm": 20.75,
      "grad_norm_var": 1.4910807291666666,
      "learning_rate": 2.620713344719698e-05,
      "loss": 6.9033,
      "loss/crossentropy": 2.116207906603813,
      "loss/hidden": 3.19609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17307401802390815,
      "step": 27210
    },
    {
      "epoch": 0.9073333333333333,
      "grad_norm": 19.75,
      "grad_norm_var": 1.5059895833333334,
      "learning_rate": 2.6098630607053704e-05,
      "loss": 6.8249,
      "loss/crossentropy": 2.1922834485769274,
      "loss/hidden": 3.1828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16770193502306938,
      "step": 27220
    },
    {
      "epoch": 0.9076666666666666,
      "grad_norm": 21.75,
      "grad_norm_var": 0.8363932291666667,
      "learning_rate": 2.5990413011758396e-05,
      "loss": 6.9028,
      "loss/crossentropy": 2.190079639852047,
      "loss/hidden": 3.20546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17454652497544884,
      "step": 27230
    },
    {
      "epoch": 0.908,
      "grad_norm": 21.625,
      "grad_norm_var": 0.7738932291666667,
      "learning_rate": 2.588248172937502e-05,
      "loss": 6.7325,
      "loss/crossentropy": 1.9603225111961364,
      "loss/hidden": 3.145703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14061546474695205,
      "step": 27240
    },
    {
      "epoch": 0.9083333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 0.3322265625,
      "learning_rate": 2.577483782514174e-05,
      "loss": 6.8603,
      "loss/crossentropy": 2.165058287978172,
      "loss/hidden": 3.1921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16146605722606183,
      "step": 27250
    },
    {
      "epoch": 0.9086666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 0.8113932291666667,
      "learning_rate": 2.5667482361460467e-05,
      "loss": 6.8768,
      "loss/crossentropy": 2.0848546117544173,
      "loss/hidden": 3.243359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16068812049925327,
      "step": 27260
    },
    {
      "epoch": 0.909,
      "grad_norm": 21.125,
      "grad_norm_var": 0.6427083333333333,
      "learning_rate": 2.5560416397886257e-05,
      "loss": 6.9293,
      "loss/crossentropy": 1.8594784066081047,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1557474084198475,
      "step": 27270
    },
    {
      "epoch": 0.9093333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 0.4705729166666667,
      "learning_rate": 2.5453640991116967e-05,
      "loss": 6.8813,
      "loss/crossentropy": 2.048447531461716,
      "loss/hidden": 3.159375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1582455337047577,
      "step": 27280
    },
    {
      "epoch": 0.9096666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 6.491666666666666,
      "learning_rate": 2.5347157194982742e-05,
      "loss": 6.8006,
      "loss/crossentropy": 2.028676262497902,
      "loss/hidden": 3.18125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15210597179830074,
      "step": 27290
    },
    {
      "epoch": 0.91,
      "grad_norm": 20.5,
      "grad_norm_var": 1.2197916666666666,
      "learning_rate": 2.5240966060435677e-05,
      "loss": 6.908,
      "loss/crossentropy": 2.1295453563332556,
      "loss/hidden": 3.267578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18300293069332838,
      "step": 27300
    },
    {
      "epoch": 0.9103333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 0.5468098958333333,
      "learning_rate": 2.5135068635539366e-05,
      "loss": 6.7928,
      "loss/crossentropy": 2.176609678566456,
      "loss/hidden": 3.1765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1436314729042351,
      "step": 27310
    },
    {
      "epoch": 0.9106666666666666,
      "grad_norm": 21.0,
      "grad_norm_var": 1.2052083333333334,
      "learning_rate": 2.5029465965458683e-05,
      "loss": 6.8852,
      "loss/crossentropy": 1.9842437624931335,
      "loss/hidden": 3.241015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15974466726183892,
      "step": 27320
    },
    {
      "epoch": 0.911,
      "grad_norm": 22.0,
      "grad_norm_var": 1.2155598958333333,
      "learning_rate": 2.4924159092449325e-05,
      "loss": 6.8875,
      "loss/crossentropy": 1.9043216429650784,
      "loss/hidden": 3.2078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17278967509046197,
      "step": 27330
    },
    {
      "epoch": 0.9113333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 5.60625,
      "learning_rate": 2.48191490558476e-05,
      "loss": 6.8304,
      "loss/crossentropy": 2.0150970712304117,
      "loss/hidden": 3.262109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16625587958842517,
      "step": 27340
    },
    {
      "epoch": 0.9116666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 8.317708333333334,
      "learning_rate": 2.4714436892060213e-05,
      "loss": 6.8042,
      "loss/crossentropy": 2.058341934531927,
      "loss/hidden": 3.1359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.154982496984303,
      "step": 27350
    },
    {
      "epoch": 0.912,
      "grad_norm": 20.75,
      "grad_norm_var": 3.8749348958333334,
      "learning_rate": 2.46100236345539e-05,
      "loss": 6.7786,
      "loss/crossentropy": 1.8252541318535804,
      "loss/hidden": 3.261328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1562123046256602,
      "step": 27360
    },
    {
      "epoch": 0.9123333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 0.9858723958333333,
      "learning_rate": 2.4505910313845408e-05,
      "loss": 6.8645,
      "loss/crossentropy": 1.9364535629749298,
      "loss/hidden": 3.12578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1512385666370392,
      "step": 27370
    },
    {
      "epoch": 0.9126666666666666,
      "grad_norm": 21.75,
      "grad_norm_var": 1.0983723958333333,
      "learning_rate": 2.440209795749114e-05,
      "loss": 6.8863,
      "loss/crossentropy": 1.9228644296526909,
      "loss/hidden": 3.23984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16667801439762114,
      "step": 27380
    },
    {
      "epoch": 0.913,
      "grad_norm": 20.875,
      "grad_norm_var": 0.9931640625,
      "learning_rate": 2.4298587590077164e-05,
      "loss": 6.9802,
      "loss/crossentropy": 1.9965920761227607,
      "loss/hidden": 3.22109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16229025460779667,
      "step": 27390
    },
    {
      "epoch": 0.9133333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 0.5082682291666667,
      "learning_rate": 2.4195380233209008e-05,
      "loss": 6.6642,
      "loss/crossentropy": 1.916854026913643,
      "loss/hidden": 3.20078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15667275432497263,
      "step": 27400
    },
    {
      "epoch": 0.9136666666666666,
      "grad_norm": 25.25,
      "grad_norm_var": 2.068489583333333,
      "learning_rate": 2.4092476905501634e-05,
      "loss": 6.9134,
      "loss/crossentropy": 2.0995171763002873,
      "loss/hidden": 3.16640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15996734565123916,
      "step": 27410
    },
    {
      "epoch": 0.914,
      "grad_norm": 23.0,
      "grad_norm_var": 2.5400390625,
      "learning_rate": 2.398987862256933e-05,
      "loss": 6.979,
      "loss/crossentropy": 2.112964731827378,
      "loss/hidden": 3.340234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1689059093594551,
      "step": 27420
    },
    {
      "epoch": 0.9143333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.621875,
      "learning_rate": 2.3887586397015716e-05,
      "loss": 6.9236,
      "loss/crossentropy": 2.0072560638189314,
      "loss/hidden": 3.2296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1832346895709634,
      "step": 27430
    },
    {
      "epoch": 0.9146666666666666,
      "grad_norm": 26.375,
      "grad_norm_var": 2.6416015625,
      "learning_rate": 2.3785601238423787e-05,
      "loss": 6.8881,
      "loss/crossentropy": 2.0381537839770316,
      "loss/hidden": 3.209765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1642130235210061,
      "step": 27440
    },
    {
      "epoch": 0.915,
      "grad_norm": 21.875,
      "grad_norm_var": 2.71015625,
      "learning_rate": 2.3683924153345856e-05,
      "loss": 6.898,
      "loss/crossentropy": 2.050332149863243,
      "loss/hidden": 3.220703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15957360472530127,
      "step": 27450
    },
    {
      "epoch": 0.9153333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.1238932291666666,
      "learning_rate": 2.358255614529374e-05,
      "loss": 6.7788,
      "loss/crossentropy": 1.9567649722099305,
      "loss/hidden": 3.21640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1502897882834077,
      "step": 27460
    },
    {
      "epoch": 0.9156666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 0.890625,
      "learning_rate": 2.3481498214728717e-05,
      "loss": 6.7887,
      "loss/crossentropy": 1.9293017938733101,
      "loss/hidden": 3.262890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16474825162440537,
      "step": 27470
    },
    {
      "epoch": 0.916,
      "grad_norm": 20.25,
      "grad_norm_var": 0.6587890625,
      "learning_rate": 2.3380751359051795e-05,
      "loss": 6.8496,
      "loss/crossentropy": 2.057722179591656,
      "loss/hidden": 3.166015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1477236093953252,
      "step": 27480
    },
    {
      "epoch": 0.9163333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 0.6978515625,
      "learning_rate": 2.3280316572593735e-05,
      "loss": 6.851,
      "loss/crossentropy": 2.0436879307031632,
      "loss/hidden": 3.100390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15924023166298867,
      "step": 27490
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 0.82890625,
      "learning_rate": 2.3180194846605367e-05,
      "loss": 6.8103,
      "loss/crossentropy": 2.0646505132317543,
      "loss/hidden": 3.11796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14654937675222754,
      "step": 27500
    },
    {
      "epoch": 0.917,
      "grad_norm": 21.0,
      "grad_norm_var": 0.8551432291666666,
      "learning_rate": 2.3080387169247687e-05,
      "loss": 6.8039,
      "loss/crossentropy": 2.101382979750633,
      "loss/hidden": 3.2671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16098164729773998,
      "step": 27510
    },
    {
      "epoch": 0.9173333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 1.1291015625,
      "learning_rate": 2.298089452558216e-05,
      "loss": 6.7319,
      "loss/crossentropy": 1.9046258434653283,
      "loss/hidden": 3.130078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15497801061719657,
      "step": 27520
    },
    {
      "epoch": 0.9176666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 0.8749348958333333,
      "learning_rate": 2.288171789756105e-05,
      "loss": 6.8369,
      "loss/crossentropy": 2.108339750766754,
      "loss/hidden": 3.21171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17621326725929976,
      "step": 27530
    },
    {
      "epoch": 0.918,
      "grad_norm": 20.875,
      "grad_norm_var": 1.2478515625,
      "learning_rate": 2.2782858264017598e-05,
      "loss": 6.8024,
      "loss/crossentropy": 2.042202705144882,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15201376751065254,
      "step": 27540
    },
    {
      "epoch": 0.9183333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.3363932291666667,
      "learning_rate": 2.268431660065651e-05,
      "loss": 6.7997,
      "loss/crossentropy": 1.8682068414986133,
      "loss/hidden": 3.153125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15471092467196285,
      "step": 27550
    },
    {
      "epoch": 0.9186666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 0.43723958333333335,
      "learning_rate": 2.258609388004419e-05,
      "loss": 6.7734,
      "loss/crossentropy": 1.9644837513566018,
      "loss/hidden": 3.20390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16138502229005097,
      "step": 27560
    },
    {
      "epoch": 0.919,
      "grad_norm": 21.75,
      "grad_norm_var": 0.6681640625,
      "learning_rate": 2.2488191071599263e-05,
      "loss": 6.799,
      "loss/crossentropy": 2.0926445186138154,
      "loss/hidden": 3.29765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19344071615487338,
      "step": 27570
    },
    {
      "epoch": 0.9193333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 0.7291015625,
      "learning_rate": 2.2390609141582902e-05,
      "loss": 6.7563,
      "loss/crossentropy": 2.0497403740882874,
      "loss/hidden": 3.1421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15796293318271637,
      "step": 27580
    },
    {
      "epoch": 0.9196666666666666,
      "grad_norm": 20.5,
      "grad_norm_var": 8.709375,
      "learning_rate": 2.229334905308938e-05,
      "loss": 6.679,
      "loss/crossentropy": 1.8748921178281308,
      "loss/hidden": 3.208984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14360655695199967,
      "step": 27590
    },
    {
      "epoch": 0.92,
      "grad_norm": 21.75,
      "grad_norm_var": 7.952018229166667,
      "learning_rate": 2.219641176603649e-05,
      "loss": 6.8976,
      "loss/crossentropy": 1.9149666860699655,
      "loss/hidden": 3.216796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1568117355927825,
      "step": 27600
    },
    {
      "epoch": 0.9203333333333333,
      "grad_norm": 24.0,
      "grad_norm_var": 3.1035807291666666,
      "learning_rate": 2.2099798237156116e-05,
      "loss": 6.8551,
      "loss/crossentropy": 2.1548288121819494,
      "loss/hidden": 3.271875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1809004159644246,
      "step": 27610
    },
    {
      "epoch": 0.9206666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 3.595833333333333,
      "learning_rate": 2.200350941998481e-05,
      "loss": 6.8465,
      "loss/crossentropy": 2.0366897195577622,
      "loss/hidden": 3.103515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15638676267117263,
      "step": 27620
    },
    {
      "epoch": 0.921,
      "grad_norm": 20.125,
      "grad_norm_var": 0.8080729166666667,
      "learning_rate": 2.1907546264854283e-05,
      "loss": 6.9391,
      "loss/crossentropy": 1.9020028218626976,
      "loss/hidden": 3.107421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14446177333593369,
      "step": 27630
    },
    {
      "epoch": 0.9213333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 0.878125,
      "learning_rate": 2.181190971888218e-05,
      "loss": 6.8741,
      "loss/crossentropy": 2.1242057621479034,
      "loss/hidden": 3.25078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16890477053821087,
      "step": 27640
    },
    {
      "epoch": 0.9216666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 0.5712890625,
      "learning_rate": 2.1716600725962562e-05,
      "loss": 6.854,
      "loss/crossentropy": 2.003288094699383,
      "loss/hidden": 3.13203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15149989314377307,
      "step": 27650
    },
    {
      "epoch": 0.922,
      "grad_norm": 21.75,
      "grad_norm_var": 1.2197265625,
      "learning_rate": 2.1621620226756745e-05,
      "loss": 6.8234,
      "loss/crossentropy": 1.8800167009234428,
      "loss/hidden": 3.2140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.154136617295444,
      "step": 27660
    },
    {
      "epoch": 0.9223333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 0.8014973958333333,
      "learning_rate": 2.1526969158683875e-05,
      "loss": 6.7598,
      "loss/crossentropy": 2.1428465634584426,
      "loss/hidden": 3.107421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1558793431147933,
      "step": 27670
    },
    {
      "epoch": 0.9226666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 1.2302083333333333,
      "learning_rate": 2.1432648455911808e-05,
      "loss": 6.8209,
      "loss/crossentropy": 1.9693931117653847,
      "loss/hidden": 3.183984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16253619380295276,
      "step": 27680
    },
    {
      "epoch": 0.923,
      "grad_norm": 23.0,
      "grad_norm_var": 1.6561848958333334,
      "learning_rate": 2.1338659049347798e-05,
      "loss": 6.871,
      "loss/crossentropy": 2.2309056654572488,
      "loss/hidden": 3.18046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16542233377695084,
      "step": 27690
    },
    {
      "epoch": 0.9233333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 0.6228515625,
      "learning_rate": 2.1245001866629322e-05,
      "loss": 6.8937,
      "loss/crossentropy": 2.0580638118088244,
      "loss/hidden": 3.295703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1742462942842394,
      "step": 27700
    },
    {
      "epoch": 0.9236666666666666,
      "grad_norm": 23.375,
      "grad_norm_var": 2.3160807291666665,
      "learning_rate": 2.1151677832114996e-05,
      "loss": 6.9408,
      "loss/crossentropy": 1.997247189283371,
      "loss/hidden": 3.149609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14960271613672377,
      "step": 27710
    },
    {
      "epoch": 0.924,
      "grad_norm": 23.625,
      "grad_norm_var": 2.661393229166667,
      "learning_rate": 2.1058687866875328e-05,
      "loss": 6.8154,
      "loss/crossentropy": 1.9769588127732276,
      "loss/hidden": 3.16875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15400861240923405,
      "step": 27720
    },
    {
      "epoch": 0.9243333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 10.42265625,
      "learning_rate": 2.0966032888683773e-05,
      "loss": 6.8957,
      "loss/crossentropy": 1.9895775854587554,
      "loss/hidden": 3.198046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15623829020187258,
      "step": 27730
    },
    {
      "epoch": 0.9246666666666666,
      "grad_norm": 22.25,
      "grad_norm_var": 1.3666666666666667,
      "learning_rate": 2.0873713812007517e-05,
      "loss": 6.9308,
      "loss/crossentropy": 2.0563116490840914,
      "loss/hidden": 3.275,
      "loss/jsd": 0.0,
      "loss/logits": 0.16867623366415502,
      "step": 27740
    },
    {
      "epoch": 0.925,
      "grad_norm": 20.875,
      "grad_norm_var": 0.6372395833333333,
      "learning_rate": 2.0781731547998614e-05,
      "loss": 6.8815,
      "loss/crossentropy": 1.8822642505168914,
      "loss/hidden": 3.246875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16076278118416668,
      "step": 27750
    },
    {
      "epoch": 0.9253333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 0.9455729166666667,
      "learning_rate": 2.0690087004484844e-05,
      "loss": 6.801,
      "loss/crossentropy": 2.086822558939457,
      "loss/hidden": 3.212109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16068840138614177,
      "step": 27760
    },
    {
      "epoch": 0.9256666666666666,
      "grad_norm": 23.75,
      "grad_norm_var": 1.9806640625,
      "learning_rate": 2.0598781085960883e-05,
      "loss": 6.8743,
      "loss/crossentropy": 2.00646168962121,
      "loss/hidden": 3.18203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15596114667132496,
      "step": 27770
    },
    {
      "epoch": 0.926,
      "grad_norm": 21.5,
      "grad_norm_var": 1.0457682291666666,
      "learning_rate": 2.0507814693579263e-05,
      "loss": 6.8621,
      "loss/crossentropy": 1.9436368495225906,
      "loss/hidden": 3.1109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14514606250450016,
      "step": 27780
    },
    {
      "epoch": 0.9263333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.446875,
      "learning_rate": 2.0417188725141557e-05,
      "loss": 6.8546,
      "loss/crossentropy": 2.0124169424176217,
      "loss/hidden": 3.271484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16959600700065494,
      "step": 27790
    },
    {
      "epoch": 0.9266666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 1.4510416666666666,
      "learning_rate": 2.0326904075089492e-05,
      "loss": 6.8477,
      "loss/crossentropy": 2.062483602762222,
      "loss/hidden": 3.134375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1529495507478714,
      "step": 27800
    },
    {
      "epoch": 0.927,
      "grad_norm": 20.25,
      "grad_norm_var": 1.040625,
      "learning_rate": 2.02369616344961e-05,
      "loss": 6.8063,
      "loss/crossentropy": 2.018744045495987,
      "loss/hidden": 3.1296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15262581091374158,
      "step": 27810
    },
    {
      "epoch": 0.9273333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 0.7434895833333334,
      "learning_rate": 2.0147362291056983e-05,
      "loss": 6.8214,
      "loss/crossentropy": 1.9554542362689973,
      "loss/hidden": 3.255078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15628779772669077,
      "step": 27820
    },
    {
      "epoch": 0.9276666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 0.6375,
      "learning_rate": 2.005810692908146e-05,
      "loss": 6.773,
      "loss/crossentropy": 1.8790936447679996,
      "loss/hidden": 3.12265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1430271876975894,
      "step": 27830
    },
    {
      "epoch": 0.928,
      "grad_norm": 22.75,
      "grad_norm_var": 0.7018229166666666,
      "learning_rate": 1.996919642948395e-05,
      "loss": 6.9103,
      "loss/crossentropy": 1.9114558339118957,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16306452695280313,
      "step": 27840
    },
    {
      "epoch": 0.9283333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 2.474739583333333,
      "learning_rate": 1.9880631669775164e-05,
      "loss": 6.9135,
      "loss/crossentropy": 1.938335907459259,
      "loss/hidden": 3.210546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15777956116944553,
      "step": 27850
    },
    {
      "epoch": 0.9286666666666666,
      "grad_norm": 21.25,
      "grad_norm_var": 0.9306640625,
      "learning_rate": 1.9792413524053538e-05,
      "loss": 6.8582,
      "loss/crossentropy": 2.0509339734911918,
      "loss/hidden": 3.16640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17118664290755986,
      "step": 27860
    },
    {
      "epoch": 0.929,
      "grad_norm": 23.125,
      "grad_norm_var": 1.2134765625,
      "learning_rate": 1.970454286299654e-05,
      "loss": 6.8609,
      "loss/crossentropy": 2.035054676234722,
      "loss/hidden": 3.24453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17292858399450778,
      "step": 27870
    },
    {
      "epoch": 0.9293333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 0.65,
      "learning_rate": 1.961702055385215e-05,
      "loss": 6.9531,
      "loss/crossentropy": 2.035239374637604,
      "loss/hidden": 3.10625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15701537095010282,
      "step": 27880
    },
    {
      "epoch": 0.9296666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 0.8754557291666667,
      "learning_rate": 1.9529847460430206e-05,
      "loss": 6.7717,
      "loss/crossentropy": 2.0914264246821404,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1649886442348361,
      "step": 27890
    },
    {
      "epoch": 0.93,
      "grad_norm": 20.75,
      "grad_norm_var": 2.5403116477197844e+18,
      "learning_rate": 1.944302444309393e-05,
      "loss": 6.8185,
      "loss/crossentropy": 1.963211180269718,
      "loss/hidden": 3.149609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15954519156366587,
      "step": 27900
    },
    {
      "epoch": 0.9303333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 2.540311647507273e+18,
      "learning_rate": 1.9356552358751486e-05,
      "loss": 6.8701,
      "loss/crossentropy": 1.9134356677532196,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16030828636139632,
      "step": 27910
    },
    {
      "epoch": 0.9306666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 1.9268229166666666,
      "learning_rate": 1.927043206084741e-05,
      "loss": 6.8608,
      "loss/crossentropy": 2.0048422425985337,
      "loss/hidden": 3.26015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16555739659816027,
      "step": 27920
    },
    {
      "epoch": 0.931,
      "grad_norm": 21.75,
      "grad_norm_var": 1.1997395833333333,
      "learning_rate": 1.918466439935429e-05,
      "loss": 6.8752,
      "loss/crossentropy": 2.1238563142716886,
      "loss/hidden": 3.2640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16962270541116595,
      "step": 27930
    },
    {
      "epoch": 0.9313333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.2989583333333334,
      "learning_rate": 1.9099250220764303e-05,
      "loss": 6.8435,
      "loss/crossentropy": 2.0242248825728892,
      "loss/hidden": 3.190234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17032607905566693,
      "step": 27940
    },
    {
      "epoch": 0.9316666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 0.5895182291666666,
      "learning_rate": 1.9014190368080926e-05,
      "loss": 7.0145,
      "loss/crossentropy": 2.1218235939741135,
      "loss/hidden": 3.275390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17224793788045645,
      "step": 27950
    },
    {
      "epoch": 0.932,
      "grad_norm": 22.375,
      "grad_norm_var": 0.7541666666666667,
      "learning_rate": 1.892948568081055e-05,
      "loss": 6.8804,
      "loss/crossentropy": 2.163966727256775,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1737080292776227,
      "step": 27960
    },
    {
      "epoch": 0.9323333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 0.7546223958333333,
      "learning_rate": 1.884513699495426e-05,
      "loss": 6.8348,
      "loss/crossentropy": 2.0167593225836753,
      "loss/hidden": 3.251953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15947899948805572,
      "step": 27970
    },
    {
      "epoch": 0.9326666666666666,
      "grad_norm": 21.875,
      "grad_norm_var": 0.39837239583333334,
      "learning_rate": 1.8761145142999516e-05,
      "loss": 6.8929,
      "loss/crossentropy": 1.9491732098162173,
      "loss/hidden": 3.207421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17612145710736513,
      "step": 27980
    },
    {
      "epoch": 0.933,
      "grad_norm": 26.0,
      "grad_norm_var": 1.6577473958333333,
      "learning_rate": 1.8677510953911987e-05,
      "loss": 6.9866,
      "loss/crossentropy": 2.0607218489050867,
      "loss/hidden": 3.302734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17759426180273294,
      "step": 27990
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.38515625,
      "learning_rate": 1.8594235253127375e-05,
      "loss": 7.0145,
      "loss/crossentropy": 2.211387987434864,
      "loss/hidden": 3.19296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1805992743000388,
      "step": 28000
    },
    {
      "epoch": 0.9336666666666666,
      "grad_norm": 22.875,
      "grad_norm_var": 0.5228515625,
      "learning_rate": 1.851131886254319e-05,
      "loss": 6.8231,
      "loss/crossentropy": 2.094671034812927,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15865894313901663,
      "step": 28010
    },
    {
      "epoch": 0.934,
      "grad_norm": 20.25,
      "grad_norm_var": 0.6889973958333333,
      "learning_rate": 1.8428762600510772e-05,
      "loss": 6.8635,
      "loss/crossentropy": 2.0300868436694146,
      "loss/hidden": 3.245703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1639298925176263,
      "step": 28020
    },
    {
      "epoch": 0.9343333333333333,
      "grad_norm": 25.125,
      "grad_norm_var": 2.202018229166667,
      "learning_rate": 1.8346567281827077e-05,
      "loss": 6.7595,
      "loss/crossentropy": 1.9703581586480141,
      "loss/hidden": 3.2296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17280979938805102,
      "step": 28030
    },
    {
      "epoch": 0.9346666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 2.2697265625,
      "learning_rate": 1.8264733717726722e-05,
      "loss": 6.864,
      "loss/crossentropy": 1.8735784053802491,
      "loss/hidden": 3.290625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17170735779218377,
      "step": 28040
    },
    {
      "epoch": 0.935,
      "grad_norm": 21.0,
      "grad_norm_var": 0.7077473958333333,
      "learning_rate": 1.818326271587394e-05,
      "loss": 6.871,
      "loss/crossentropy": 1.9842637002468109,
      "loss/hidden": 3.215234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16598169598728418,
      "step": 28050
    },
    {
      "epoch": 0.9353333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.0958333333333334,
      "learning_rate": 1.8102155080354642e-05,
      "loss": 6.8726,
      "loss/crossentropy": 2.063341203331947,
      "loss/hidden": 3.079296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15235913041979074,
      "step": 28060
    },
    {
      "epoch": 0.9356666666666666,
      "grad_norm": 23.5,
      "grad_norm_var": 1.3186848958333333,
      "learning_rate": 1.8021411611668444e-05,
      "loss": 6.8173,
      "loss/crossentropy": 2.0359160229563713,
      "loss/hidden": 3.2375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16284253299236298,
      "step": 28070
    },
    {
      "epoch": 0.936,
      "grad_norm": 21.75,
      "grad_norm_var": 1.9625138911536218e+18,
      "learning_rate": 1.7941033106720768e-05,
      "loss": 6.8429,
      "loss/crossentropy": 1.9865235716104508,
      "loss/hidden": 3.175,
      "loss/jsd": 0.0,
      "loss/logits": 0.15688623264431953,
      "step": 28080
    },
    {
      "epoch": 0.9363333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 1.962513891247015e+18,
      "learning_rate": 1.7861020358815024e-05,
      "loss": 6.9292,
      "loss/crossentropy": 2.052123652398586,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1626156263053417,
      "step": 28090
    },
    {
      "epoch": 0.9366666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 0.5916015625,
      "learning_rate": 1.7781374157644715e-05,
      "loss": 6.8609,
      "loss/crossentropy": 2.0096867479383946,
      "loss/hidden": 3.196484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15360062830150129,
      "step": 28100
    },
    {
      "epoch": 0.937,
      "grad_norm": 21.875,
      "grad_norm_var": 0.3650390625,
      "learning_rate": 1.7702095289285717e-05,
      "loss": 6.8755,
      "loss/crossentropy": 2.258693332970142,
      "loss/hidden": 3.0671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15729560470208526,
      "step": 28110
    },
    {
      "epoch": 0.9373333333333334,
      "grad_norm": 21.25,
      "grad_norm_var": 0.6020182291666667,
      "learning_rate": 1.7623184536188424e-05,
      "loss": 6.926,
      "loss/crossentropy": 1.9955579489469528,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16989528406411408,
      "step": 28120
    },
    {
      "epoch": 0.9376666666666666,
      "grad_norm": 21.375,
      "grad_norm_var": 0.6176432291666667,
      "learning_rate": 1.7544642677170152e-05,
      "loss": 6.9319,
      "loss/crossentropy": 2.0671664133667944,
      "loss/hidden": 3.248046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1739020137116313,
      "step": 28130
    },
    {
      "epoch": 0.938,
      "grad_norm": 20.5,
      "grad_norm_var": 0.6077473958333334,
      "learning_rate": 1.74664704874073e-05,
      "loss": 6.8389,
      "loss/crossentropy": 1.8632956266403198,
      "loss/hidden": 3.19453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1709655337035656,
      "step": 28140
    },
    {
      "epoch": 0.9383333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 0.9457682291666667,
      "learning_rate": 1.738866873842785e-05,
      "loss": 6.8875,
      "loss/crossentropy": 2.1864455230534077,
      "loss/hidden": 3.13828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1634229407645762,
      "step": 28150
    },
    {
      "epoch": 0.9386666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 0.7875,
      "learning_rate": 1.7311238198103627e-05,
      "loss": 6.8575,
      "loss/crossentropy": 1.8006783843040466,
      "loss/hidden": 3.20859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14259467422962188,
      "step": 28160
    },
    {
      "epoch": 0.939,
      "grad_norm": 21.5,
      "grad_norm_var": 0.4369140625,
      "learning_rate": 1.7234179630642834e-05,
      "loss": 6.7653,
      "loss/crossentropy": 2.0104843035340307,
      "loss/hidden": 3.162109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15113328117877245,
      "step": 28170
    },
    {
      "epoch": 0.9393333333333334,
      "grad_norm": 20.25,
      "grad_norm_var": 1709.6525390625,
      "learning_rate": 1.7157493796582398e-05,
      "loss": 6.8128,
      "loss/crossentropy": 1.9046835117042065,
      "loss/hidden": 3.2140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15331623200327157,
      "step": 28180
    },
    {
      "epoch": 0.9396666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 1700.040625,
      "learning_rate": 1.708118145278056e-05,
      "loss": 6.8447,
      "loss/crossentropy": 1.9132866755127906,
      "loss/hidden": 3.25859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16736448789015412,
      "step": 28190
    },
    {
      "epoch": 0.94,
      "grad_norm": 21.5,
      "grad_norm_var": 2.4009765625,
      "learning_rate": 1.7005243352409334e-05,
      "loss": 6.8374,
      "loss/crossentropy": 2.1414462864398955,
      "loss/hidden": 3.1203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.157612294703722,
      "step": 28200
    },
    {
      "epoch": 0.9403333333333334,
      "grad_norm": 21.125,
      "grad_norm_var": 2.1567057291666667,
      "learning_rate": 1.692968024494711e-05,
      "loss": 6.7885,
      "loss/crossentropy": 1.9627116709947585,
      "loss/hidden": 3.141015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14800271224230527,
      "step": 28210
    },
    {
      "epoch": 0.9406666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 0.9718098958333333,
      "learning_rate": 1.6854492876171264e-05,
      "loss": 6.8826,
      "loss/crossentropy": 1.9164805084466934,
      "loss/hidden": 3.2640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1629214364103973,
      "step": 28220
    },
    {
      "epoch": 0.941,
      "grad_norm": 21.375,
      "grad_norm_var": 1.3614583333333334,
      "learning_rate": 1.677968198815076e-05,
      "loss": 6.731,
      "loss/crossentropy": 1.940926407277584,
      "loss/hidden": 3.167578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1472564697265625,
      "step": 28230
    },
    {
      "epoch": 0.9413333333333334,
      "grad_norm": 21.25,
      "grad_norm_var": 1.4962890625,
      "learning_rate": 1.6705248319238876e-05,
      "loss": 6.9204,
      "loss/crossentropy": 2.1460791036486624,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15511545334011317,
      "step": 28240
    },
    {
      "epoch": 0.9416666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 1.2593098958333333,
      "learning_rate": 1.6631192604065855e-05,
      "loss": 6.7155,
      "loss/crossentropy": 2.0769747786223887,
      "loss/hidden": 3.1859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1538231515791267,
      "step": 28250
    },
    {
      "epoch": 0.942,
      "grad_norm": 22.75,
      "grad_norm_var": 1.3264973958333333,
      "learning_rate": 1.6557515573531724e-05,
      "loss": 6.913,
      "loss/crossentropy": 2.01955421641469,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1581470502540469,
      "step": 28260
    },
    {
      "epoch": 0.9423333333333334,
      "grad_norm": 21.0,
      "grad_norm_var": 1.2729166666666667,
      "learning_rate": 1.6484217954799018e-05,
      "loss": 6.7413,
      "loss/crossentropy": 1.9801385045051574,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16784953828901053,
      "step": 28270
    },
    {
      "epoch": 0.9426666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 0.51015625,
      "learning_rate": 1.6411300471285656e-05,
      "loss": 6.8198,
      "loss/crossentropy": 2.2034427911043166,
      "loss/hidden": 3.079296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15067932959645985,
      "step": 28280
    },
    {
      "epoch": 0.943,
      "grad_norm": 23.875,
      "grad_norm_var": 1.01015625,
      "learning_rate": 1.6338763842657757e-05,
      "loss": 6.9264,
      "loss/crossentropy": 1.979648907482624,
      "loss/hidden": 3.31171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1757309900596738,
      "step": 28290
    },
    {
      "epoch": 0.9433333333333334,
      "grad_norm": 22.375,
      "grad_norm_var": 2.1809895833333335,
      "learning_rate": 1.6266608784822544e-05,
      "loss": 6.7541,
      "loss/crossentropy": 2.0895672395825384,
      "loss/hidden": 3.17265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16868185754865408,
      "step": 28300
    },
    {
      "epoch": 0.9436666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 0.7218098958333333,
      "learning_rate": 1.6194836009921332e-05,
      "loss": 6.7872,
      "loss/crossentropy": 1.9959282279014587,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1535317923873663,
      "step": 28310
    },
    {
      "epoch": 0.944,
      "grad_norm": 21.5,
      "grad_norm_var": 0.9622395833333334,
      "learning_rate": 1.6123446226322414e-05,
      "loss": 6.7534,
      "loss/crossentropy": 2.1295602142810823,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16768959537148476,
      "step": 28320
    },
    {
      "epoch": 0.9443333333333334,
      "grad_norm": 21.125,
      "grad_norm_var": 1.1333333333333333,
      "learning_rate": 1.6052440138614155e-05,
      "loss": 6.9399,
      "loss/crossentropy": 2.0156208984553814,
      "loss/hidden": 3.18828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15371856791898608,
      "step": 28330
    },
    {
      "epoch": 0.9446666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 1.05,
      "learning_rate": 1.598181844759795e-05,
      "loss": 6.8335,
      "loss/crossentropy": 2.0985936269164087,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1626562364399433,
      "step": 28340
    },
    {
      "epoch": 0.945,
      "grad_norm": 20.75,
      "grad_norm_var": 1.15,
      "learning_rate": 1.5911581850281403e-05,
      "loss": 6.7963,
      "loss/crossentropy": 1.8603245675563813,
      "loss/hidden": 3.183203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14134703744202853,
      "step": 28350
    },
    {
      "epoch": 0.9453333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 0.72890625,
      "learning_rate": 1.5841731039871348e-05,
      "loss": 6.7295,
      "loss/crossentropy": 2.0212074637413027,
      "loss/hidden": 3.219921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15525523126125335,
      "step": 28360
    },
    {
      "epoch": 0.9456666666666667,
      "grad_norm": 23.625,
      "grad_norm_var": 1.4372395833333333,
      "learning_rate": 1.5772266705767108e-05,
      "loss": 6.8022,
      "loss/crossentropy": 2.0861593782901764,
      "loss/hidden": 3.192578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17841291818767785,
      "step": 28370
    },
    {
      "epoch": 0.946,
      "grad_norm": 22.375,
      "grad_norm_var": 2.3707682291666665,
      "learning_rate": 1.5703189533553605e-05,
      "loss": 6.9794,
      "loss/crossentropy": 2.1092930763959883,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18949546683579682,
      "step": 28380
    },
    {
      "epoch": 0.9463333333333334,
      "grad_norm": 21.375,
      "grad_norm_var": 0.9843098958333333,
      "learning_rate": 1.563450020499463e-05,
      "loss": 6.8461,
      "loss/crossentropy": 2.025676953792572,
      "loss/hidden": 3.21015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17395553570240735,
      "step": 28390
    },
    {
      "epoch": 0.9466666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 3.162652818595678e+18,
      "learning_rate": 1.556619939802615e-05,
      "loss": 6.8821,
      "loss/crossentropy": 2.098123352229595,
      "loss/hidden": 3.2015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1534987824037671,
      "step": 28400
    },
    {
      "epoch": 0.947,
      "grad_norm": 22.0,
      "grad_norm_var": 0.74140625,
      "learning_rate": 1.549828778674953e-05,
      "loss": 6.9398,
      "loss/crossentropy": 2.09067225754261,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17208856642246245,
      "step": 28410
    },
    {
      "epoch": 0.9473333333333334,
      "grad_norm": 22.75,
      "grad_norm_var": 0.55390625,
      "learning_rate": 1.5430766041424978e-05,
      "loss": 6.8388,
      "loss/crossentropy": 1.8563894510269165,
      "loss/hidden": 3.2703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15164101766422391,
      "step": 28420
    },
    {
      "epoch": 0.9476666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 0.8442057291666667,
      "learning_rate": 1.536363482846484e-05,
      "loss": 6.8602,
      "loss/crossentropy": 1.9244048327207566,
      "loss/hidden": 3.348828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15772407911717892,
      "step": 28430
    },
    {
      "epoch": 0.948,
      "grad_norm": 20.25,
      "grad_norm_var": 94.33743489583334,
      "learning_rate": 1.529689481042711e-05,
      "loss": 6.8611,
      "loss/crossentropy": 1.9303564444184302,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1556209173053503,
      "step": 28440
    },
    {
      "epoch": 0.9483333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 94.33483072916667,
      "learning_rate": 1.5230546646008795e-05,
      "loss": 6.8918,
      "loss/crossentropy": 2.0158408626914026,
      "loss/hidden": 3.240234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15476850140839815,
      "step": 28450
    },
    {
      "epoch": 0.9486666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.2551432291666667,
      "learning_rate": 1.516459099003952e-05,
      "loss": 6.802,
      "loss/crossentropy": 2.104232335090637,
      "loss/hidden": 3.19375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16216706801205874,
      "step": 28460
    },
    {
      "epoch": 0.949,
      "grad_norm": 23.375,
      "grad_norm_var": 2.8147497485817175e+18,
      "learning_rate": 1.5099028493474956e-05,
      "loss": 6.8888,
      "loss/crossentropy": 2.0458613131195307,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17042651497758926,
      "step": 28470
    },
    {
      "epoch": 0.9493333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 2.814749748588708e+18,
      "learning_rate": 1.50338598033905e-05,
      "loss": 6.8804,
      "loss/crossentropy": 2.069540320336819,
      "loss/hidden": 3.151953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15929017215967178,
      "step": 28480
    },
    {
      "epoch": 0.9496666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 2.448958333333333,
      "learning_rate": 1.49690855629748e-05,
      "loss": 6.8573,
      "loss/crossentropy": 2.0447287276387214,
      "loss/hidden": 3.244921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17378965076059102,
      "step": 28490
    },
    {
      "epoch": 0.95,
      "grad_norm": 23.125,
      "grad_norm_var": 4.262239583333334,
      "learning_rate": 1.490470641152345e-05,
      "loss": 6.8061,
      "loss/crossentropy": 2.057085025310516,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15816838014870882,
      "step": 28500
    },
    {
      "epoch": 0.9503333333333334,
      "grad_norm": 22.0,
      "grad_norm_var": 5.236458333333333,
      "learning_rate": 1.4840722984432701e-05,
      "loss": 6.8545,
      "loss/crossentropy": 1.9297899812459947,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15209535052999854,
      "step": 28510
    },
    {
      "epoch": 0.9506666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 2.0322916666666666,
      "learning_rate": 1.4777135913193132e-05,
      "loss": 6.8245,
      "loss/crossentropy": 2.107157987356186,
      "loss/hidden": 3.212890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16366199534386397,
      "step": 28520
    },
    {
      "epoch": 0.951,
      "grad_norm": 22.0,
      "grad_norm_var": 0.25833333333333336,
      "learning_rate": 1.471394582538348e-05,
      "loss": 6.8325,
      "loss/crossentropy": 2.0403877660632133,
      "loss/hidden": 3.17265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16406202521175145,
      "step": 28530
    },
    {
      "epoch": 0.9513333333333334,
      "grad_norm": 24.125,
      "grad_norm_var": 3.139518229166667,
      "learning_rate": 1.4651153344664387e-05,
      "loss": 6.9738,
      "loss/crossentropy": 2.258484014868736,
      "loss/hidden": 3.1625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15992612596601247,
      "step": 28540
    },
    {
      "epoch": 0.9516666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.6613932291666667,
      "learning_rate": 1.4588759090772302e-05,
      "loss": 6.8308,
      "loss/crossentropy": 2.0535311087965966,
      "loss/hidden": 3.146484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.167077792994678,
      "step": 28550
    },
    {
      "epoch": 0.952,
      "grad_norm": 20.75,
      "grad_norm_var": 2.121809895833333,
      "learning_rate": 1.4526763679513303e-05,
      "loss": 6.9378,
      "loss/crossentropy": 2.1362095795571805,
      "loss/hidden": 3.16875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15281093278899788,
      "step": 28560
    },
    {
      "epoch": 0.9523333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 1.9955729166666667,
      "learning_rate": 1.446516772275709e-05,
      "loss": 6.8711,
      "loss/crossentropy": 1.9070044673979283,
      "loss/hidden": 3.177734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16114689372479915,
      "step": 28570
    },
    {
      "epoch": 0.9526666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 0.5455729166666666,
      "learning_rate": 1.440397182843088e-05,
      "loss": 6.8352,
      "loss/crossentropy": 1.896916215121746,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16120940092951058,
      "step": 28580
    },
    {
      "epoch": 0.953,
      "grad_norm": 22.75,
      "grad_norm_var": 0.5768229166666666,
      "learning_rate": 1.4343176600513433e-05,
      "loss": 6.9722,
      "loss/crossentropy": 2.0961402654647827,
      "loss/hidden": 3.2859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18284041043370963,
      "step": 28590
    },
    {
      "epoch": 0.9533333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 0.6259765625,
      "learning_rate": 1.428278263902913e-05,
      "loss": 6.8938,
      "loss/crossentropy": 1.9410855919122696,
      "loss/hidden": 3.192578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15987232998013495,
      "step": 28600
    },
    {
      "epoch": 0.9536666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 0.6947265625,
      "learning_rate": 1.422279054004196e-05,
      "loss": 6.7791,
      "loss/crossentropy": 2.0120147198438643,
      "loss/hidden": 3.147265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15940133705735207,
      "step": 28610
    },
    {
      "epoch": 0.954,
      "grad_norm": 24.875,
      "grad_norm_var": 1.1875,
      "learning_rate": 1.4163200895649742e-05,
      "loss": 6.9824,
      "loss/crossentropy": 1.899172729998827,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14629402589052914,
      "step": 28620
    },
    {
      "epoch": 0.9543333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 2.0936848958333334,
      "learning_rate": 1.4104014293978196e-05,
      "loss": 6.8647,
      "loss/crossentropy": 2.0003262996673583,
      "loss/hidden": 3.188671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1569441094994545,
      "step": 28630
    },
    {
      "epoch": 0.9546666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 1.5327473958333333,
      "learning_rate": 1.4045231319175198e-05,
      "loss": 6.9435,
      "loss/crossentropy": 2.0988379955291747,
      "loss/hidden": 3.31328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17967260386794806,
      "step": 28640
    },
    {
      "epoch": 0.955,
      "grad_norm": 21.375,
      "grad_norm_var": 1.1369140625,
      "learning_rate": 1.3986852551404964e-05,
      "loss": 6.8599,
      "loss/crossentropy": 2.1141707748174667,
      "loss/hidden": 3.1359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15787138119339944,
      "step": 28650
    },
    {
      "epoch": 0.9553333333333334,
      "grad_norm": 23.75,
      "grad_norm_var": 0.8989583333333333,
      "learning_rate": 1.3928878566842376e-05,
      "loss": 6.8908,
      "loss/crossentropy": 2.0345154732465742,
      "loss/hidden": 3.225,
      "loss/jsd": 0.0,
      "loss/logits": 0.18289269097149372,
      "step": 28660
    },
    {
      "epoch": 0.9556666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 0.9889973958333333,
      "learning_rate": 1.3871309937667253e-05,
      "loss": 6.9933,
      "loss/crossentropy": 2.1303988128900526,
      "loss/hidden": 3.21171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17532578259706497,
      "step": 28670
    },
    {
      "epoch": 0.956,
      "grad_norm": 22.125,
      "grad_norm_var": 1.1150390625,
      "learning_rate": 1.3814147232058714e-05,
      "loss": 6.6818,
      "loss/crossentropy": 1.7408723145723344,
      "loss/hidden": 3.17265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15916957296431064,
      "step": 28680
    },
    {
      "epoch": 0.9563333333333334,
      "grad_norm": 22.5,
      "grad_norm_var": 1.0160807291666667,
      "learning_rate": 1.3757391014189596e-05,
      "loss": 6.9554,
      "loss/crossentropy": 1.9530368164181708,
      "loss/hidden": 3.181640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18459425549954175,
      "step": 28690
    },
    {
      "epoch": 0.9566666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.0666015625,
      "learning_rate": 1.3701041844220849e-05,
      "loss": 6.9349,
      "loss/crossentropy": 1.9662514954805375,
      "loss/hidden": 3.18671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17320307586342096,
      "step": 28700
    },
    {
      "epoch": 0.957,
      "grad_norm": 22.125,
      "grad_norm_var": 1.0697265625,
      "learning_rate": 1.3645100278296047e-05,
      "loss": 6.937,
      "loss/crossentropy": 2.046416383981705,
      "loss/hidden": 3.233984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19815693870186807,
      "step": 28710
    },
    {
      "epoch": 0.9573333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 1.4759765625,
      "learning_rate": 1.3589566868535836e-05,
      "loss": 6.8148,
      "loss/crossentropy": 2.0860094636678697,
      "loss/hidden": 3.12734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15798233803361655,
      "step": 28720
    },
    {
      "epoch": 0.9576666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.5302083333333334,
      "learning_rate": 1.3534442163032574e-05,
      "loss": 6.8177,
      "loss/crossentropy": 2.1211801931262015,
      "loss/hidden": 3.222265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1808505615219474,
      "step": 28730
    },
    {
      "epoch": 0.958,
      "grad_norm": 22.375,
      "grad_norm_var": 0.9270833333333334,
      "learning_rate": 1.347972670584483e-05,
      "loss": 6.8425,
      "loss/crossentropy": 1.9814658090472221,
      "loss/hidden": 3.116796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15671081114560365,
      "step": 28740
    },
    {
      "epoch": 0.9583333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 0.8885416666666667,
      "learning_rate": 1.3425421036992098e-05,
      "loss": 6.7837,
      "loss/crossentropy": 1.9576505310833454,
      "loss/hidden": 3.153515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1521891091018915,
      "step": 28750
    },
    {
      "epoch": 0.9586666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 0.6791666666666667,
      "learning_rate": 1.3371525692449394e-05,
      "loss": 6.9583,
      "loss/crossentropy": 2.1901199877262116,
      "loss/hidden": 3.2046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16546592973172664,
      "step": 28760
    },
    {
      "epoch": 0.959,
      "grad_norm": 22.25,
      "grad_norm_var": 2.3824041859454684e+18,
      "learning_rate": 1.3318041204142004e-05,
      "loss": 6.9222,
      "loss/crossentropy": 1.9837070412933826,
      "loss/hidden": 3.20234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16084651360288263,
      "step": 28770
    },
    {
      "epoch": 0.9593333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 1.9385416666666666,
      "learning_rate": 1.3264968099940245e-05,
      "loss": 6.9218,
      "loss/crossentropy": 2.1181742370128633,
      "loss/hidden": 3.244140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18821782916784285,
      "step": 28780
    },
    {
      "epoch": 0.9596666666666667,
      "grad_norm": 24.0,
      "grad_norm_var": 2.1869140625,
      "learning_rate": 1.321230690365422e-05,
      "loss": 6.8798,
      "loss/crossentropy": 2.0393978893756866,
      "loss/hidden": 3.191796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15889321286231278,
      "step": 28790
    },
    {
      "epoch": 0.96,
      "grad_norm": 22.25,
      "grad_norm_var": 1.2372395833333334,
      "learning_rate": 1.3160058135028691e-05,
      "loss": 6.8816,
      "loss/crossentropy": 1.9314091876149178,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.154315375816077,
      "step": 28800
    },
    {
      "epoch": 0.9603333333333334,
      "grad_norm": 21.125,
      "grad_norm_var": 1.59765625,
      "learning_rate": 1.3108222309737892e-05,
      "loss": 6.9788,
      "loss/crossentropy": 1.9973760724067688,
      "loss/hidden": 3.198828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1759620831348002,
      "step": 28810
    },
    {
      "epoch": 0.9606666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 1.0561848958333333,
      "learning_rate": 1.305679993938051e-05,
      "loss": 6.8864,
      "loss/crossentropy": 2.043069842457771,
      "loss/hidden": 3.166796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15617891773581505,
      "step": 28820
    },
    {
      "epoch": 0.961,
      "grad_norm": 22.125,
      "grad_norm_var": 12.6650390625,
      "learning_rate": 1.3005791531474562e-05,
      "loss": 6.8934,
      "loss/crossentropy": 2.0857333853840827,
      "loss/hidden": 3.164453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1577781980857253,
      "step": 28830
    },
    {
      "epoch": 0.9613333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 12.689322916666667,
      "learning_rate": 1.2955197589452462e-05,
      "loss": 6.8934,
      "loss/crossentropy": 1.9508272759616374,
      "loss/hidden": 3.271484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16099842144176363,
      "step": 28840
    },
    {
      "epoch": 0.9616666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 0.4393229166666667,
      "learning_rate": 1.2905018612655975e-05,
      "loss": 6.86,
      "loss/crossentropy": 2.013827832788229,
      "loss/hidden": 3.207421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16024797260761262,
      "step": 28850
    },
    {
      "epoch": 0.962,
      "grad_norm": 21.5,
      "grad_norm_var": 0.6760416666666667,
      "learning_rate": 1.2855255096331348e-05,
      "loss": 6.9056,
      "loss/crossentropy": 2.1667084366083147,
      "loss/hidden": 3.098046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15538214575499296,
      "step": 28860
    },
    {
      "epoch": 0.9623333333333334,
      "grad_norm": 22.75,
      "grad_norm_var": 0.5228515625,
      "learning_rate": 1.2805907531624403e-05,
      "loss": 6.7589,
      "loss/crossentropy": 1.8827613063156605,
      "loss/hidden": 3.068359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14002714012749493,
      "step": 28870
    },
    {
      "epoch": 0.9626666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 1.7014973958333333,
      "learning_rate": 1.2756976405575668e-05,
      "loss": 6.8948,
      "loss/crossentropy": 1.9622853726148606,
      "loss/hidden": 3.303515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1584384061396122,
      "step": 28880
    },
    {
      "epoch": 0.963,
      "grad_norm": 21.875,
      "grad_norm_var": 1.6854166666666666,
      "learning_rate": 1.2708462201115617e-05,
      "loss": 6.7792,
      "loss/crossentropy": 1.8909013763070106,
      "loss/hidden": 3.235546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16017456604167818,
      "step": 28890
    },
    {
      "epoch": 0.9633333333333334,
      "grad_norm": 22.375,
      "grad_norm_var": 0.5988932291666667,
      "learning_rate": 1.2660365397059856e-05,
      "loss": 6.7184,
      "loss/crossentropy": 1.9674251511693002,
      "loss/hidden": 3.17890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1554909586906433,
      "step": 28900
    },
    {
      "epoch": 0.9636666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 0.99140625,
      "learning_rate": 1.2612686468104426e-05,
      "loss": 6.8514,
      "loss/crossentropy": 2.0045790046453478,
      "loss/hidden": 3.18046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16668143030256033,
      "step": 28910
    },
    {
      "epoch": 0.964,
      "grad_norm": 22.125,
      "grad_norm_var": 1.246875,
      "learning_rate": 1.2565425884821096e-05,
      "loss": 6.9451,
      "loss/crossentropy": 2.1058658018708227,
      "loss/hidden": 3.23671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17369681475684046,
      "step": 28920
    },
    {
      "epoch": 0.9643333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 0.9249348958333333,
      "learning_rate": 1.2518584113652767e-05,
      "loss": 6.92,
      "loss/crossentropy": 2.0629913471639156,
      "loss/hidden": 3.19453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16003647521138192,
      "step": 28930
    },
    {
      "epoch": 0.9646666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 0.7143229166666667,
      "learning_rate": 1.247216161690879e-05,
      "loss": 6.9623,
      "loss/crossentropy": 2.127345842123032,
      "loss/hidden": 3.251171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17870207615196704,
      "step": 28940
    },
    {
      "epoch": 0.965,
      "grad_norm": 22.0,
      "grad_norm_var": 0.7660807291666667,
      "learning_rate": 1.2426158852760462e-05,
      "loss": 6.7875,
      "loss/crossentropy": 1.906770334392786,
      "loss/hidden": 3.098828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14323475370183586,
      "step": 28950
    },
    {
      "epoch": 0.9653333333333334,
      "grad_norm": 22.75,
      "grad_norm_var": 2.2660807291666667,
      "learning_rate": 1.2380576275236511e-05,
      "loss": 6.8731,
      "loss/crossentropy": 2.055904617905617,
      "loss/hidden": 3.18046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15869035460054876,
      "step": 28960
    },
    {
      "epoch": 0.9656666666666667,
      "grad_norm": 24.125,
      "grad_norm_var": 1.1556640625,
      "learning_rate": 1.2335414334218561e-05,
      "loss": 7.0247,
      "loss/crossentropy": 2.0497659265995027,
      "loss/hidden": 3.180859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1614781607873738,
      "step": 28970
    },
    {
      "epoch": 0.966,
      "grad_norm": 22.25,
      "grad_norm_var": 1.1497395833333333,
      "learning_rate": 1.229067347543675e-05,
      "loss": 6.8011,
      "loss/crossentropy": 2.0531945556402205,
      "loss/hidden": 3.221875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16420614402741193,
      "step": 28980
    },
    {
      "epoch": 0.9663333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 0.8541666666666666,
      "learning_rate": 1.224635414046527e-05,
      "loss": 6.8427,
      "loss/crossentropy": 1.9432912215590477,
      "loss/hidden": 3.16328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16180085185915233,
      "step": 28990
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 0.6416666666666667,
      "learning_rate": 1.2202456766718093e-05,
      "loss": 6.7551,
      "loss/crossentropy": 2.1089743584394456,
      "loss/hidden": 3.159375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1651729150209576,
      "step": 29000
    },
    {
      "epoch": 0.967,
      "grad_norm": 21.0,
      "grad_norm_var": 1.4041666666666666,
      "learning_rate": 1.2158981787444552e-05,
      "loss": 6.8471,
      "loss/crossentropy": 1.9657625079154968,
      "loss/hidden": 3.24453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16529466435313225,
      "step": 29010
    },
    {
      "epoch": 0.9673333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 0.9593098958333334,
      "learning_rate": 1.2115929631725158e-05,
      "loss": 6.8562,
      "loss/crossentropy": 1.982128444686532,
      "loss/hidden": 3.14296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15026735952123998,
      "step": 29020
    },
    {
      "epoch": 0.9676666666666667,
      "grad_norm": 24.0,
      "grad_norm_var": 1.4122395833333334,
      "learning_rate": 1.2073300724467295e-05,
      "loss": 6.7686,
      "loss/crossentropy": 2.0765829384326935,
      "loss/hidden": 3.253125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16304893530905246,
      "step": 29030
    },
    {
      "epoch": 0.968,
      "grad_norm": 22.375,
      "grad_norm_var": 2.3053504105878477e+18,
      "learning_rate": 1.2031095486401069e-05,
      "loss": 6.9941,
      "loss/crossentropy": 2.093338930606842,
      "loss/hidden": 3.43125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16548265926539898,
      "step": 29040
    },
    {
      "epoch": 0.9683333333333334,
      "grad_norm": 26.5,
      "grad_norm_var": 2.305350410347444e+18,
      "learning_rate": 1.1989314334075145e-05,
      "loss": 6.9207,
      "loss/crossentropy": 2.0706306278705595,
      "loss/hidden": 3.175,
      "loss/jsd": 0.0,
      "loss/logits": 0.1563433837145567,
      "step": 29050
    },
    {
      "epoch": 0.9686666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 2.209830729166667,
      "learning_rate": 1.1947957679852627e-05,
      "loss": 6.9284,
      "loss/crossentropy": 1.939845222979784,
      "loss/hidden": 3.170703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15329579524695874,
      "step": 29060
    },
    {
      "epoch": 0.969,
      "grad_norm": 22.5,
      "grad_norm_var": 0.6143229166666667,
      "learning_rate": 1.1907025931907e-05,
      "loss": 6.8166,
      "loss/crossentropy": 2.0235880702733993,
      "loss/hidden": 3.131640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15207564570009707,
      "step": 29070
    },
    {
      "epoch": 0.9693333333333334,
      "grad_norm": 23.125,
      "grad_norm_var": 1.1895182291666666,
      "learning_rate": 1.1866519494218084e-05,
      "loss": 6.9347,
      "loss/crossentropy": 2.039486038684845,
      "loss/hidden": 3.239453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18337175534106792,
      "step": 29080
    },
    {
      "epoch": 0.9696666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 1.1238932291666666,
      "learning_rate": 1.1826438766568076e-05,
      "loss": 6.8713,
      "loss/crossentropy": 2.1116551235318184,
      "loss/hidden": 3.141015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16442451104521752,
      "step": 29090
    },
    {
      "epoch": 0.97,
      "grad_norm": 22.375,
      "grad_norm_var": 1.9671223958333333,
      "learning_rate": 1.1786784144537563e-05,
      "loss": 6.8258,
      "loss/crossentropy": 2.092792363464832,
      "loss/hidden": 3.242578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1660682398825884,
      "step": 29100
    },
    {
      "epoch": 0.9703333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 1.4775390625,
      "learning_rate": 1.1747556019501665e-05,
      "loss": 6.8014,
      "loss/crossentropy": 2.1302355214953423,
      "loss/hidden": 3.139453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1670895716175437,
      "step": 29110
    },
    {
      "epoch": 0.9706666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.8885416666666666,
      "learning_rate": 1.1708754778626134e-05,
      "loss": 6.9092,
      "loss/crossentropy": 2.0474965393543245,
      "loss/hidden": 3.373046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19082598555833102,
      "step": 29120
    },
    {
      "epoch": 0.971,
      "grad_norm": 24.375,
      "grad_norm_var": 2.9284656384458097e+18,
      "learning_rate": 1.1670380804863557e-05,
      "loss": 7.0317,
      "loss/crossentropy": 2.060644108057022,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18089290745556355,
      "step": 29130
    },
    {
      "epoch": 0.9713333333333334,
      "grad_norm": 22.5,
      "grad_norm_var": 0.46868489583333334,
      "learning_rate": 1.1632434476949564e-05,
      "loss": 6.9555,
      "loss/crossentropy": 2.125787417590618,
      "loss/hidden": 3.22421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17629719469696284,
      "step": 29140
    },
    {
      "epoch": 0.9716666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 0.6518229166666667,
      "learning_rate": 1.1594916169399088e-05,
      "loss": 6.8684,
      "loss/crossentropy": 2.202189776301384,
      "loss/hidden": 3.119921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15515435487031937,
      "step": 29150
    },
    {
      "epoch": 0.972,
      "grad_norm": 22.25,
      "grad_norm_var": 0.8455729166666667,
      "learning_rate": 1.1557826252502677e-05,
      "loss": 6.8047,
      "loss/crossentropy": 2.0502734132111073,
      "loss/hidden": 3.1578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1607513885013759,
      "step": 29160
    },
    {
      "epoch": 0.9723333333333334,
      "grad_norm": 22.0,
      "grad_norm_var": 0.8205729166666667,
      "learning_rate": 1.1521165092322836e-05,
      "loss": 6.8834,
      "loss/crossentropy": 2.01381069123745,
      "loss/hidden": 3.333984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16493042316287757,
      "step": 29170
    },
    {
      "epoch": 0.9726666666666667,
      "grad_norm": 25.0,
      "grad_norm_var": 0.646875,
      "learning_rate": 1.1484933050690425e-05,
      "loss": 6.9093,
      "loss/crossentropy": 2.077186991274357,
      "loss/hidden": 3.162890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1712075762450695,
      "step": 29180
    },
    {
      "epoch": 0.973,
      "grad_norm": 22.375,
      "grad_norm_var": 0.759375,
      "learning_rate": 1.1449130485201056e-05,
      "loss": 6.8158,
      "loss/crossentropy": 1.9148377593606711,
      "loss/hidden": 3.103125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14505248717032374,
      "step": 29190
    },
    {
      "epoch": 0.9733333333333334,
      "grad_norm": 23.25,
      "grad_norm_var": 0.3634765625,
      "learning_rate": 1.1413757749211602e-05,
      "loss": 6.8682,
      "loss/crossentropy": 2.138897517323494,
      "loss/hidden": 3.0640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1604563297703862,
      "step": 29200
    },
    {
      "epoch": 0.9736666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 0.4837890625,
      "learning_rate": 1.1378815191836679e-05,
      "loss": 6.8282,
      "loss/crossentropy": 2.014554353058338,
      "loss/hidden": 3.26796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16188111137598754,
      "step": 29210
    },
    {
      "epoch": 0.974,
      "grad_norm": 22.0,
      "grad_norm_var": 2894.9393229166667,
      "learning_rate": 1.1344303157945242e-05,
      "loss": 6.9728,
      "loss/crossentropy": 2.0439544051885603,
      "loss/hidden": 3.188671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1644747108221054,
      "step": 29220
    },
    {
      "epoch": 0.9743333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 2892.2497395833334,
      "learning_rate": 1.1310221988157106e-05,
      "loss": 6.8651,
      "loss/crossentropy": 2.073014111816883,
      "loss/hidden": 3.30546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1810118304565549,
      "step": 29230
    },
    {
      "epoch": 0.9746666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 0.915625,
      "learning_rate": 1.1276572018839673e-05,
      "loss": 6.9769,
      "loss/crossentropy": 2.0511143311858175,
      "loss/hidden": 3.195703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15696678645908832,
      "step": 29240
    },
    {
      "epoch": 0.975,
      "grad_norm": 22.75,
      "grad_norm_var": 0.38014322916666665,
      "learning_rate": 1.1243353582104556e-05,
      "loss": 7.0323,
      "loss/crossentropy": 2.084176428616047,
      "loss/hidden": 3.24765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17536051329225302,
      "step": 29250
    },
    {
      "epoch": 0.9753333333333334,
      "grad_norm": 25.5,
      "grad_norm_var": 1.859375,
      "learning_rate": 1.1210567005804302e-05,
      "loss": 6.8833,
      "loss/crossentropy": 2.0693555802106856,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1687312951311469,
      "step": 29260
    },
    {
      "epoch": 0.9756666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 2.265625,
      "learning_rate": 1.1178212613529202e-05,
      "loss": 6.7959,
      "loss/crossentropy": 2.032899996638298,
      "loss/hidden": 3.148828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15500539531931282,
      "step": 29270
    },
    {
      "epoch": 0.976,
      "grad_norm": 22.5,
      "grad_norm_var": 3.958268229166667,
      "learning_rate": 1.1146290724604024e-05,
      "loss": 6.9032,
      "loss/crossentropy": 2.0004256799817086,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16235917941667138,
      "step": 29280
    },
    {
      "epoch": 0.9763333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 3.7122395833333335,
      "learning_rate": 1.1114801654084949e-05,
      "loss": 6.8216,
      "loss/crossentropy": 1.98628860861063,
      "loss/hidden": 3.196875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16457067504525186,
      "step": 29290
    },
    {
      "epoch": 0.9766666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 0.884375,
      "learning_rate": 1.1083745712756367e-05,
      "loss": 6.9611,
      "loss/crossentropy": 2.2105645328760146,
      "loss/hidden": 3.204296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17289726454764603,
      "step": 29300
    },
    {
      "epoch": 0.977,
      "grad_norm": 23.375,
      "grad_norm_var": 0.46041666666666664,
      "learning_rate": 1.1053123207127896e-05,
      "loss": 6.9226,
      "loss/crossentropy": 2.0838935345411302,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15632101874798537,
      "step": 29310
    },
    {
      "epoch": 0.9773333333333334,
      "grad_norm": 24.25,
      "grad_norm_var": 0.7247395833333333,
      "learning_rate": 1.1022934439431295e-05,
      "loss": 6.8949,
      "loss/crossentropy": 1.9940695136785507,
      "loss/hidden": 3.185546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1685311601497233,
      "step": 29320
    },
    {
      "epoch": 0.9776666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 0.5684895833333333,
      "learning_rate": 1.0993179707617519e-05,
      "loss": 6.8931,
      "loss/crossentropy": 2.195150835812092,
      "loss/hidden": 3.161328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16006924994289876,
      "step": 29330
    },
    {
      "epoch": 0.978,
      "grad_norm": 22.375,
      "grad_norm_var": 0.4952473958333333,
      "learning_rate": 1.0963859305353758e-05,
      "loss": 6.954,
      "loss/crossentropy": 2.0411001086235045,
      "loss/hidden": 3.287890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17475655488669872,
      "step": 29340
    },
    {
      "epoch": 0.9783333333333334,
      "grad_norm": 23.375,
      "grad_norm_var": 6.3931640625,
      "learning_rate": 1.0934973522020538e-05,
      "loss": 6.9526,
      "loss/crossentropy": 2.057637444138527,
      "loss/hidden": 3.314453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1770678885281086,
      "step": 29350
    },
    {
      "epoch": 0.9786666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 2.4233723958333333,
      "learning_rate": 1.0906522642708893e-05,
      "loss": 6.897,
      "loss/crossentropy": 2.0793089002370833,
      "loss/hidden": 3.180859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16001901477575303,
      "step": 29360
    },
    {
      "epoch": 0.979,
      "grad_norm": 23.375,
      "grad_norm_var": 2.24765625,
      "learning_rate": 1.0878506948217503e-05,
      "loss": 6.9443,
      "loss/crossentropy": 2.04323640614748,
      "loss/hidden": 3.2484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16657722741365433,
      "step": 29370
    },
    {
      "epoch": 0.9793333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 0.4520182291666667,
      "learning_rate": 1.0850926715049972e-05,
      "loss": 6.8765,
      "loss/crossentropy": 1.9868069365620613,
      "loss/hidden": 3.137109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1584441527724266,
      "step": 29380
    },
    {
      "epoch": 0.9796666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 0.7582682291666667,
      "learning_rate": 1.0823782215412054e-05,
      "loss": 6.9489,
      "loss/crossentropy": 1.9985451444983482,
      "loss/hidden": 3.283984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15724884811788797,
      "step": 29390
    },
    {
      "epoch": 0.98,
      "grad_norm": 22.5,
      "grad_norm_var": 0.6583333333333333,
      "learning_rate": 1.0797073717209014e-05,
      "loss": 6.8264,
      "loss/crossentropy": 2.087764638662338,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1608564306050539,
      "step": 29400
    },
    {
      "epoch": 0.9803333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 1.7789922062113964e+18,
      "learning_rate": 1.0770801484042939e-05,
      "loss": 6.8378,
      "loss/crossentropy": 1.9793974101543426,
      "loss/hidden": 3.416015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1507678169757128,
      "step": 29410
    },
    {
      "epoch": 0.9806666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 0.8333333333333334,
      "learning_rate": 1.0744965775210168e-05,
      "loss": 6.9311,
      "loss/crossentropy": 2.0206541672348974,
      "loss/hidden": 3.29609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18002614229917527,
      "step": 29420
    },
    {
      "epoch": 0.981,
      "grad_norm": 21.625,
      "grad_norm_var": 1.0957682291666666,
      "learning_rate": 1.0719566845698715e-05,
      "loss": 6.9871,
      "loss/crossentropy": 1.9728245690464974,
      "loss/hidden": 3.217578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16548432894051074,
      "step": 29430
    },
    {
      "epoch": 0.9813333333333333,
      "grad_norm": 28.5,
      "grad_norm_var": 2.74375,
      "learning_rate": 1.0694604946185762e-05,
      "loss": 6.9848,
      "loss/crossentropy": 2.042478208243847,
      "loss/hidden": 3.17890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17351799383759497,
      "step": 29440
    },
    {
      "epoch": 0.9816666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 2.24140625,
      "learning_rate": 1.0670080323035176e-05,
      "loss": 6.9812,
      "loss/crossentropy": 2.0702026799321174,
      "loss/hidden": 3.1515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15049307681620122,
      "step": 29450
    },
    {
      "epoch": 0.982,
      "grad_norm": 23.125,
      "grad_norm_var": 0.77265625,
      "learning_rate": 1.0645993218295088e-05,
      "loss": 6.8362,
      "loss/crossentropy": 1.9153663486242294,
      "loss/hidden": 3.1890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16654033735394477,
      "step": 29460
    },
    {
      "epoch": 0.9823333333333333,
      "grad_norm": 24.125,
      "grad_norm_var": 0.9309895833333334,
      "learning_rate": 1.0622343869695508e-05,
      "loss": 6.8102,
      "loss/crossentropy": 1.9985662505030632,
      "loss/hidden": 3.265234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16704850597307086,
      "step": 29470
    },
    {
      "epoch": 0.9826666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 1.1309895833333334,
      "learning_rate": 1.0599132510645939e-05,
      "loss": 6.8195,
      "loss/crossentropy": 2.0518441289663314,
      "loss/hidden": 3.111328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14787574112415314,
      "step": 29480
    },
    {
      "epoch": 0.983,
      "grad_norm": 25.625,
      "grad_norm_var": 2.0879557291666666,
      "learning_rate": 1.057635937023314e-05,
      "loss": 6.9664,
      "loss/crossentropy": 2.0693943217396735,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15590767320245505,
      "step": 29490
    },
    {
      "epoch": 0.9833333333333333,
      "grad_norm": 23.875,
      "grad_norm_var": 0.9830729166666666,
      "learning_rate": 1.0554024673218807e-05,
      "loss": 6.9185,
      "loss/crossentropy": 1.8844229593873023,
      "loss/hidden": 3.323046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17540524620562792,
      "step": 29500
    },
    {
      "epoch": 0.9836666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 1.0747395833333333,
      "learning_rate": 1.053212864003738e-05,
      "loss": 6.869,
      "loss/crossentropy": 1.8106282196938992,
      "loss/hidden": 3.278515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15563625153154134,
      "step": 29510
    },
    {
      "epoch": 0.984,
      "grad_norm": 22.5,
      "grad_norm_var": 0.5796223958333333,
      "learning_rate": 1.0510671486793873e-05,
      "loss": 6.9721,
      "loss/crossentropy": 2.120162781327963,
      "loss/hidden": 3.1421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15654509966261684,
      "step": 29520
    },
    {
      "epoch": 0.9843333333333333,
      "grad_norm": 24.875,
      "grad_norm_var": 1.2080729166666666,
      "learning_rate": 1.0489653425261721e-05,
      "loss": 6.9396,
      "loss/crossentropy": 2.093233019858599,
      "loss/hidden": 3.149609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15795425418764353,
      "step": 29530
    },
    {
      "epoch": 0.9846666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.6087890625,
      "learning_rate": 1.046907466288071e-05,
      "loss": 6.7796,
      "loss/crossentropy": 2.213361156731844,
      "loss/hidden": 3.19765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16810417706146835,
      "step": 29540
    },
    {
      "epoch": 0.985,
      "grad_norm": 22.125,
      "grad_norm_var": 1.1510416666666667,
      "learning_rate": 1.0448935402754912e-05,
      "loss": 6.8736,
      "loss/crossentropy": 2.0324639290571214,
      "loss/hidden": 3.151171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16171343475580216,
      "step": 29550
    },
    {
      "epoch": 0.9853333333333333,
      "grad_norm": 38.25,
      "grad_norm_var": 33.201822916666664,
      "learning_rate": 1.0429235843650698e-05,
      "loss": 6.9544,
      "loss/crossentropy": 2.1379873633384703,
      "loss/hidden": 3.222265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16771480459719895,
      "step": 29560
    },
    {
      "epoch": 0.9856666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 33.7134765625,
      "learning_rate": 1.0409976179994762e-05,
      "loss": 6.8317,
      "loss/crossentropy": 1.8709135249257087,
      "loss/hidden": 3.3171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15978736570104957,
      "step": 29570
    },
    {
      "epoch": 0.986,
      "grad_norm": 23.625,
      "grad_norm_var": 0.9660807291666667,
      "learning_rate": 1.039115660187221e-05,
      "loss": 6.8523,
      "loss/crossentropy": 1.9445186778903008,
      "loss/hidden": 3.201953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15582914650440216,
      "step": 29580
    },
    {
      "epoch": 0.9863333333333333,
      "grad_norm": 25.5,
      "grad_norm_var": 2.6393229166666665,
      "learning_rate": 1.0372777295024676e-05,
      "loss": 6.8136,
      "loss/crossentropy": 1.7506938025355339,
      "loss/hidden": 3.274609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16162756085395813,
      "step": 29590
    },
    {
      "epoch": 0.9866666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 3.03125,
      "learning_rate": 1.0354838440848503e-05,
      "loss": 6.848,
      "loss/crossentropy": 2.032399223744869,
      "loss/hidden": 3.1625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16586268395185472,
      "step": 29600
    },
    {
      "epoch": 0.987,
      "grad_norm": 22.625,
      "grad_norm_var": 0.3900390625,
      "learning_rate": 1.0337340216392933e-05,
      "loss": 6.8192,
      "loss/crossentropy": 1.934443362057209,
      "loss/hidden": 3.3578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.180020921677351,
      "step": 29610
    },
    {
      "epoch": 0.9873333333333333,
      "grad_norm": 25.25,
      "grad_norm_var": 1.2455729166666667,
      "learning_rate": 1.032028279435839e-05,
      "loss": 6.9186,
      "loss/crossentropy": 2.2124100014567376,
      "loss/hidden": 3.185546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18372708857059478,
      "step": 29620
    },
    {
      "epoch": 0.9876666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 1.2145833333333333,
      "learning_rate": 1.030366634309473e-05,
      "loss": 6.8804,
      "loss/crossentropy": 2.0187501519918443,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17060858262702822,
      "step": 29630
    },
    {
      "epoch": 0.988,
      "grad_norm": 23.125,
      "grad_norm_var": 1.0729166666666667,
      "learning_rate": 1.0287491026599623e-05,
      "loss": 6.892,
      "loss/crossentropy": 2.02512718886137,
      "loss/hidden": 3.1984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17388947010040284,
      "step": 29640
    },
    {
      "epoch": 0.9883333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.2705729166666666,
      "learning_rate": 1.0271757004516918e-05,
      "loss": 6.8015,
      "loss/crossentropy": 2.1398928314447403,
      "loss/hidden": 3.289453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1810132971033454,
      "step": 29650
    },
    {
      "epoch": 0.9886666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 2.3364583333333333,
      "learning_rate": 1.0256464432135048e-05,
      "loss": 7.0092,
      "loss/crossentropy": 2.1282053992152212,
      "loss/hidden": 3.175390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16205706167966127,
      "step": 29660
    },
    {
      "epoch": 0.989,
      "grad_norm": 25.75,
      "grad_norm_var": 1.3434895833333333,
      "learning_rate": 1.0241613460385547e-05,
      "loss": 6.9536,
      "loss/crossentropy": 2.082467722892761,
      "loss/hidden": 3.23515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17200557347387074,
      "step": 29670
    },
    {
      "epoch": 0.9893333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.3639973958333333,
      "learning_rate": 1.0227204235841493e-05,
      "loss": 7.0005,
      "loss/crossentropy": 2.0898186802864074,
      "loss/hidden": 3.2125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18023983463644982,
      "step": 29680
    },
    {
      "epoch": 0.9896666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 1.6541015625,
      "learning_rate": 1.0213236900716126e-05,
      "loss": 6.853,
      "loss/crossentropy": 2.187703275680542,
      "loss/hidden": 3.0921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16371893137693405,
      "step": 29690
    },
    {
      "epoch": 0.99,
      "grad_norm": 22.875,
      "grad_norm_var": 0.7145182291666666,
      "learning_rate": 1.01997115928614e-05,
      "loss": 6.8488,
      "loss/crossentropy": 2.0195549950003624,
      "loss/hidden": 3.162109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16155789233744144,
      "step": 29700
    },
    {
      "epoch": 0.9903333333333333,
      "grad_norm": 24.5,
      "grad_norm_var": 0.5082682291666667,
      "learning_rate": 1.0186628445766647e-05,
      "loss": 6.8828,
      "loss/crossentropy": 2.007741495221853,
      "loss/hidden": 3.296484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17947645513340832,
      "step": 29710
    },
    {
      "epoch": 0.9906666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 0.8624348958333333,
      "learning_rate": 1.0173987588557237e-05,
      "loss": 6.9354,
      "loss/crossentropy": 2.135732203722,
      "loss/hidden": 3.221875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16441609486937522,
      "step": 29720
    },
    {
      "epoch": 0.991,
      "grad_norm": 22.75,
      "grad_norm_var": 0.9004557291666667,
      "learning_rate": 1.0161789145993343e-05,
      "loss": 6.9097,
      "loss/crossentropy": 1.8655649699270724,
      "loss/hidden": 3.1390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15107152182608843,
      "step": 29730
    },
    {
      "epoch": 0.9913333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 1.1739583333333334,
      "learning_rate": 1.0150033238468656e-05,
      "loss": 6.9158,
      "loss/crossentropy": 1.901015117764473,
      "loss/hidden": 3.223828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1663993639871478,
      "step": 29740
    },
    {
      "epoch": 0.9916666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 0.9447916666666667,
      "learning_rate": 1.0138719982009242e-05,
      "loss": 6.8547,
      "loss/crossentropy": 2.1790758818387985,
      "loss/hidden": 3.03671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15662378910928965,
      "step": 29750
    },
    {
      "epoch": 0.992,
      "grad_norm": 23.875,
      "grad_norm_var": 0.5333333333333333,
      "learning_rate": 1.0127849488272375e-05,
      "loss": 6.9303,
      "loss/crossentropy": 1.960058543086052,
      "loss/hidden": 3.29765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16203988939523697,
      "step": 29760
    },
    {
      "epoch": 0.9923333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 1.4504557291666667,
      "learning_rate": 1.0117421864545435e-05,
      "loss": 6.9141,
      "loss/crossentropy": 2.013607097789645,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1687733193859458,
      "step": 29770
    },
    {
      "epoch": 0.9926666666666667,
      "grad_norm": 25.0,
      "grad_norm_var": 0.8330729166666667,
      "learning_rate": 1.0107437213744867e-05,
      "loss": 6.8548,
      "loss/crossentropy": 1.9799937024712562,
      "loss/hidden": 3.115234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1619122765958309,
      "step": 29780
    },
    {
      "epoch": 0.993,
      "grad_norm": 22.625,
      "grad_norm_var": 0.8077473958333333,
      "learning_rate": 1.0097895634415135e-05,
      "loss": 6.8267,
      "loss/crossentropy": 2.14156903848052,
      "loss/hidden": 3.17109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16840279754251242,
      "step": 29790
    },
    {
      "epoch": 0.9933333333333333,
      "grad_norm": 24.25,
      "grad_norm_var": 2.7143229166666667,
      "learning_rate": 1.008879722072778e-05,
      "loss": 6.9818,
      "loss/crossentropy": 2.0121023267507554,
      "loss/hidden": 3.331640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17791486158967018,
      "step": 29800
    },
    {
      "epoch": 0.9936666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 1.2275390625,
      "learning_rate": 1.008014206248047e-05,
      "loss": 6.9668,
      "loss/crossentropy": 2.126334875077009,
      "loss/hidden": 3.2703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17075007781386375,
      "step": 29810
    },
    {
      "epoch": 0.994,
      "grad_norm": 22.5,
      "grad_norm_var": 0.6520182291666666,
      "learning_rate": 1.0071930245096125e-05,
      "loss": 6.9318,
      "loss/crossentropy": 2.3043752014636993,
      "loss/hidden": 3.238671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17486888822168112,
      "step": 29820
    },
    {
      "epoch": 0.9943333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 0.6082682291666667,
      "learning_rate": 1.0064161849622065e-05,
      "loss": 6.8321,
      "loss/crossentropy": 2.0536348327994345,
      "loss/hidden": 3.244921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16649605836719275,
      "step": 29830
    },
    {
      "epoch": 0.9946666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.2979166666666666,
      "learning_rate": 1.0056836952729215e-05,
      "loss": 6.9919,
      "loss/crossentropy": 1.991570144891739,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19409504476934672,
      "step": 29840
    },
    {
      "epoch": 0.995,
      "grad_norm": 23.625,
      "grad_norm_var": 1.1014973958333334,
      "learning_rate": 1.0049955626711355e-05,
      "loss": 6.9519,
      "loss/crossentropy": 2.031588687002659,
      "loss/hidden": 3.28984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1794443614780903,
      "step": 29850
    },
    {
      "epoch": 0.9953333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 0.8025390625,
      "learning_rate": 1.004351793948439e-05,
      "loss": 6.8755,
      "loss/crossentropy": 2.027684749662876,
      "loss/hidden": 3.226953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17099270056933163,
      "step": 29860
    },
    {
      "epoch": 0.9956666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 0.9811848958333333,
      "learning_rate": 1.0037523954585697e-05,
      "loss": 6.8869,
      "loss/crossentropy": 1.9910648241639137,
      "loss/hidden": 3.235546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.156367249134928,
      "step": 29870
    },
    {
      "epoch": 0.996,
      "grad_norm": 23.25,
      "grad_norm_var": 1.2125,
      "learning_rate": 1.0031973731173486e-05,
      "loss": 6.716,
      "loss/crossentropy": 1.9186164811253548,
      "loss/hidden": 3.153125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15821984894573687,
      "step": 29880
    },
    {
      "epoch": 0.9963333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 0.98125,
      "learning_rate": 1.002686732402622e-05,
      "loss": 6.9111,
      "loss/crossentropy": 2.014424833655357,
      "loss/hidden": 3.20234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16852001175284387,
      "step": 29890
    },
    {
      "epoch": 0.9966666666666667,
      "grad_norm": 24.125,
      "grad_norm_var": 1.0712890625,
      "learning_rate": 1.002220478354208e-05,
      "loss": 6.9157,
      "loss/crossentropy": 2.054695198684931,
      "loss/hidden": 3.137109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15729085877537727,
      "step": 29900
    },
    {
      "epoch": 0.997,
      "grad_norm": 23.0,
      "grad_norm_var": 0.97265625,
      "learning_rate": 1.0017986155738457e-05,
      "loss": 6.8971,
      "loss/crossentropy": 1.8903593212366103,
      "loss/hidden": 3.093359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14642833340913058,
      "step": 29910
    },
    {
      "epoch": 0.9973333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.9572916666666667,
      "learning_rate": 1.0014211482251503e-05,
      "loss": 7.0028,
      "loss/crossentropy": 2.0199310213327406,
      "loss/hidden": 3.270703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17333223409950732,
      "step": 29920
    },
    {
      "epoch": 0.9976666666666667,
      "grad_norm": 27.5,
      "grad_norm_var": 2.383072916666667,
      "learning_rate": 1.0010880800335719e-05,
      "loss": 6.9141,
      "loss/crossentropy": 2.015287238359451,
      "loss/hidden": 3.228515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17535847648978234,
      "step": 29930
    },
    {
      "epoch": 0.998,
      "grad_norm": 23.375,
      "grad_norm_var": 2.2910807291666666,
      "learning_rate": 1.0007994142863597e-05,
      "loss": 6.8943,
      "loss/crossentropy": 2.1094014227390288,
      "loss/hidden": 3.202734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16332617327570914,
      "step": 29940
    },
    {
      "epoch": 0.9983333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.0893229166666667,
      "learning_rate": 1.0005551538325275e-05,
      "loss": 6.7901,
      "loss/crossentropy": 1.9851688370108604,
      "loss/hidden": 3.212890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1485843539237976,
      "step": 29950
    },
    {
      "epoch": 0.9986666666666667,
      "grad_norm": 24.25,
      "grad_norm_var": 0.675,
      "learning_rate": 1.0003553010828276e-05,
      "loss": 6.8926,
      "loss/crossentropy": 2.0727066323161125,
      "loss/hidden": 3.213671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16851818263530732,
      "step": 29960
    },
    {
      "epoch": 0.999,
      "grad_norm": 23.5,
      "grad_norm_var": 0.8747395833333333,
      "learning_rate": 1.000199858009726e-05,
      "loss": 6.8944,
      "loss/crossentropy": 2.1489027053117753,
      "loss/hidden": 3.341015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1805833499878645,
      "step": 29970
    },
    {
      "epoch": 0.9993333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 0.4759765625,
      "learning_rate": 1.0000888261473831e-05,
      "loss": 6.957,
      "loss/crossentropy": 2.0706566661596297,
      "loss/hidden": 3.34453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18294469746761025,
      "step": 29980
    },
    {
      "epoch": 0.9996666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 2.99140625,
      "learning_rate": 1.0000222065916382e-05,
      "loss": 6.9522,
      "loss/crossentropy": 2.0081850692629812,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.177884781640023,
      "step": 29990
    },
    {
      "epoch": 1.0,
      "grad_norm": 21.125,
      "grad_norm_var": 1.1768229166666666,
      "learning_rate": 1e-05,
      "loss": 6.8942,
      "loss/crossentropy": 2.0051390439271928,
      "loss/hidden": 3.146875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15861098784953356,
      "step": 30000
    }
  ],
  "logging_steps": 10,
  "max_steps": 30000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 5000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8.57253009602642e+19,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}