{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.2,
  "eval_steps": 2000,
  "global_step": 4000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0005,
      "grad_norm": 2128.0,
      "learning_rate": 1.9e-05,
      "loss": 69.9557,
      "loss/crossentropy": 12.354743599891663,
      "loss/hidden": 18.71875,
      "loss/jsd": 5.161534905433655,
      "loss/logits": 0.0,
      "step": 10
    },
    {
      "epoch": 0.001,
      "grad_norm": 266.0,
      "grad_norm_var": 15343106.783333333,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 52.9613,
      "loss/crossentropy": 9.517439389228821,
      "loss/hidden": 18.68125,
      "loss/jsd": 3.39926393032074,
      "loss/logits": 0.0,
      "step": 20
    },
    {
      "epoch": 0.0015,
      "grad_norm": 186.0,
      "grad_norm_var": 174925.440625,
      "learning_rate": 3.7e-05,
      "loss": 48.1973,
      "loss/crossentropy": 8.46514676809311,
      "loss/hidden": 18.065625,
      "loss/jsd": 2.9373991966247557,
      "loss/logits": 0.0,
      "step": 30
    },
    {
      "epoch": 0.002,
      "grad_norm": 532.0,
      "grad_norm_var": 39180.229166666664,
      "learning_rate": 4.600000000000001e-05,
      "loss": 45.9066,
      "loss/crossentropy": 8.040922927856446,
      "loss/hidden": 17.096875,
      "loss/jsd": 2.860607051849365,
      "loss/logits": 0.0,
      "step": 40
    },
    {
      "epoch": 0.0025,
      "grad_norm": 334.0,
      "grad_norm_var": 38047.8,
      "learning_rate": 5.500000000000001e-05,
      "loss": 41.576,
      "loss/crossentropy": 7.545825862884522,
      "loss/hidden": 16.803125,
      "loss/jsd": 2.476469251513481,
      "loss/logits": 0.0,
      "step": 50
    },
    {
      "epoch": 0.003,
      "grad_norm": 238.0,
      "grad_norm_var": 76798.25,
      "learning_rate": 6.400000000000001e-05,
      "loss": 36.7377,
      "loss/crossentropy": 6.656394875049591,
      "loss/hidden": 15.9859375,
      "loss/jsd": 2.101923054456711,
      "loss/logits": 0.0,
      "step": 60
    },
    {
      "epoch": 0.0035,
      "grad_norm": 221.0,
      "grad_norm_var": 72765.58333333333,
      "learning_rate": 7.3e-05,
      "loss": 28.2567,
      "loss/crossentropy": 5.261470526456833,
      "loss/hidden": 13.6265625,
      "loss/jsd": 1.4439617365598678,
      "loss/logits": 0.0,
      "step": 70
    },
    {
      "epoch": 0.004,
      "grad_norm": 185.0,
      "grad_norm_var": 16524.266666666666,
      "learning_rate": 8.200000000000001e-05,
      "loss": 19.3251,
      "loss/crossentropy": 4.03509070277214,
      "loss/hidden": 11.1984375,
      "loss/jsd": 0.8947193071246147,
      "loss/logits": 0.0,
      "step": 80
    },
    {
      "epoch": 0.0045,
      "grad_norm": 107.5,
      "grad_norm_var": 1300.190625,
      "learning_rate": 9.1e-05,
      "loss": 14.15,
      "loss/crossentropy": 3.2564123183488847,
      "loss/hidden": 9.371875,
      "loss/jsd": 0.4821927219629288,
      "loss/logits": 0.0,
      "step": 90
    },
    {
      "epoch": 0.005,
      "grad_norm": 113.0,
      "grad_norm_var": 747.6072916666667,
      "learning_rate": 0.0001,
      "loss": 12.3004,
      "loss/crossentropy": 2.9699372231960295,
      "loss/hidden": 8.3890625,
      "loss/jsd": 0.37094187960028646,
      "loss/logits": 0.0,
      "step": 100
    },
    {
      "epoch": 0.0055,
      "grad_norm": 143.0,
      "grad_norm_var": 1498.7333333333333,
      "learning_rate": 0.0001,
      "loss": 11.0558,
      "loss/crossentropy": 3.028834396600723,
      "loss/hidden": 7.6984375,
      "loss/jsd": 0.32162978053092955,
      "loss/logits": 0.0,
      "step": 110
    },
    {
      "epoch": 0.006,
      "grad_norm": 141.0,
      "grad_norm_var": 384.065625,
      "learning_rate": 0.0001,
      "loss": 10.3695,
      "loss/crossentropy": 2.8776101738214495,
      "loss/hidden": 7.54375,
      "loss/jsd": 0.31908423118293283,
      "loss/logits": 0.0,
      "step": 120
    },
    {
      "epoch": 0.0065,
      "grad_norm": 126.5,
      "grad_norm_var": 376.53229166666665,
      "learning_rate": 0.0001,
      "loss": 9.7913,
      "loss/crossentropy": 2.742277052998543,
      "loss/hidden": 7.16328125,
      "loss/jsd": 0.2711725488305092,
      "loss/logits": 0.0,
      "step": 130
    },
    {
      "epoch": 0.007,
      "grad_norm": 129.0,
      "grad_norm_var": 266.0,
      "learning_rate": 0.0001,
      "loss": 9.524,
      "loss/crossentropy": 2.4384234696626663,
      "loss/hidden": 6.9765625,
      "loss/jsd": 0.2616196651011705,
      "loss/logits": 0.0,
      "step": 140
    },
    {
      "epoch": 0.0075,
      "grad_norm": 100.5,
      "grad_norm_var": 409.03229166666665,
      "learning_rate": 0.0001,
      "loss": 9.1046,
      "loss/crossentropy": 2.8043846026062966,
      "loss/hidden": 6.6234375,
      "loss/jsd": 0.2574016904458404,
      "loss/logits": 0.0,
      "step": 150
    },
    {
      "epoch": 0.008,
      "grad_norm": 78.0,
      "grad_norm_var": 385.70729166666666,
      "learning_rate": 0.0001,
      "loss": 8.961,
      "loss/crossentropy": 2.6820163667201995,
      "loss/hidden": 6.44609375,
      "loss/jsd": 0.22497861441224815,
      "loss/logits": 0.0,
      "step": 160
    },
    {
      "epoch": 0.0085,
      "grad_norm": 73.0,
      "grad_norm_var": 180.540625,
      "learning_rate": 0.0001,
      "loss": 8.6716,
      "loss/crossentropy": 2.56088288128376,
      "loss/hidden": 6.525,
      "loss/jsd": 0.23445787131786347,
      "loss/logits": 0.0,
      "step": 170
    },
    {
      "epoch": 0.009,
      "grad_norm": 70.5,
      "grad_norm_var": 66.43333333333334,
      "learning_rate": 0.0001,
      "loss": 8.3449,
      "loss/crossentropy": 2.5659249514341353,
      "loss/hidden": 6.0875,
      "loss/jsd": 0.20521375369280576,
      "loss/logits": 0.0,
      "step": 180
    },
    {
      "epoch": 0.0095,
      "grad_norm": 59.0,
      "grad_norm_var": 125.99895833333333,
      "learning_rate": 0.0001,
      "loss": 8.2048,
      "loss/crossentropy": 2.4801410123705865,
      "loss/hidden": 5.96875,
      "loss/jsd": 0.20023126248270273,
      "loss/logits": 0.0,
      "step": 190
    },
    {
      "epoch": 0.01,
      "grad_norm": 95.5,
      "grad_norm_var": 151.215625,
      "learning_rate": 0.0001,
      "loss": 7.9327,
      "loss/crossentropy": 2.7575797021389006,
      "loss/hidden": 5.9078125,
      "loss/jsd": 0.21125836484134197,
      "loss/logits": 0.0,
      "step": 200
    },
    {
      "epoch": 0.0105,
      "grad_norm": 69.5,
      "grad_norm_var": 81.01666666666667,
      "learning_rate": 0.0001,
      "loss": 7.867,
      "loss/crossentropy": 2.584353247284889,
      "loss/hidden": 5.79140625,
      "loss/jsd": 0.18391123060137032,
      "loss/logits": 0.0,
      "step": 210
    },
    {
      "epoch": 0.011,
      "grad_norm": 67.0,
      "grad_norm_var": 111.115625,
      "learning_rate": 0.0001,
      "loss": 7.5262,
      "loss/crossentropy": 2.5395505383610724,
      "loss/hidden": 5.68125,
      "loss/jsd": 0.17292506210505962,
      "loss/logits": 0.0,
      "step": 220
    },
    {
      "epoch": 0.0115,
      "grad_norm": 80.0,
      "grad_norm_var": 114.725,
      "learning_rate": 0.0001,
      "loss": 7.553,
      "loss/crossentropy": 2.469125708937645,
      "loss/hidden": 5.62890625,
      "loss/jsd": 0.1715977793559432,
      "loss/logits": 0.0,
      "step": 230
    },
    {
      "epoch": 0.012,
      "grad_norm": 59.75,
      "grad_norm_var": 93.15,
      "learning_rate": 0.0001,
      "loss": 7.3673,
      "loss/crossentropy": 2.572914382815361,
      "loss/hidden": 5.51171875,
      "loss/jsd": 0.18267902322113513,
      "loss/logits": 0.0,
      "step": 240
    },
    {
      "epoch": 0.0125,
      "grad_norm": 53.5,
      "grad_norm_var": 99.42395833333333,
      "learning_rate": 0.0001,
      "loss": 7.3184,
      "loss/crossentropy": 2.6171721309423446,
      "loss/hidden": 5.53515625,
      "loss/jsd": 0.17945121377706527,
      "loss/logits": 0.0,
      "step": 250
    },
    {
      "epoch": 0.013,
      "grad_norm": 48.75,
      "grad_norm_var": 118.975,
      "learning_rate": 0.0001,
      "loss": 7.2085,
      "loss/crossentropy": 2.4379070818424227,
      "loss/hidden": 5.509375,
      "loss/jsd": 0.1914055148139596,
      "loss/logits": 0.0,
      "step": 260
    },
    {
      "epoch": 0.0135,
      "grad_norm": 67.5,
      "grad_norm_var": 102.2875,
      "learning_rate": 0.0001,
      "loss": 7.0206,
      "loss/crossentropy": 2.5107616782188416,
      "loss/hidden": 5.4359375,
      "loss/jsd": 0.19947240259498358,
      "loss/logits": 0.0,
      "step": 270
    },
    {
      "epoch": 0.014,
      "grad_norm": 67.5,
      "grad_norm_var": 136.27057291666668,
      "learning_rate": 0.0001,
      "loss": 6.9768,
      "loss/crossentropy": 2.4130793780088426,
      "loss/hidden": 5.28359375,
      "loss/jsd": 0.18424466587603092,
      "loss/logits": 0.0,
      "step": 280
    },
    {
      "epoch": 0.0145,
      "grad_norm": 62.0,
      "grad_norm_var": 98.04895833333333,
      "learning_rate": 0.0001,
      "loss": 6.8743,
      "loss/crossentropy": 2.382996806502342,
      "loss/hidden": 5.20625,
      "loss/jsd": 0.1648038787767291,
      "loss/logits": 0.0,
      "step": 290
    },
    {
      "epoch": 0.015,
      "grad_norm": 57.75,
      "grad_norm_var": 81.59895833333333,
      "learning_rate": 0.0001,
      "loss": 6.7946,
      "loss/crossentropy": 2.5844862312078476,
      "loss/hidden": 5.22265625,
      "loss/jsd": 0.1599080903455615,
      "loss/logits": 0.0,
      "step": 300
    },
    {
      "epoch": 0.0155,
      "grad_norm": 77.0,
      "grad_norm_var": 103.13229166666666,
      "learning_rate": 0.0001,
      "loss": 6.7739,
      "loss/crossentropy": 2.4337188243865966,
      "loss/hidden": 4.98046875,
      "loss/jsd": 0.14282424729317428,
      "loss/logits": 0.0,
      "step": 310
    },
    {
      "epoch": 0.016,
      "grad_norm": 51.75,
      "grad_norm_var": 154.47265625,
      "learning_rate": 0.0001,
      "loss": 6.6113,
      "loss/crossentropy": 2.516378104686737,
      "loss/hidden": 5.03828125,
      "loss/jsd": 0.1448629444465041,
      "loss/logits": 0.0,
      "step": 320
    },
    {
      "epoch": 0.0165,
      "grad_norm": 47.0,
      "grad_norm_var": 43.2625,
      "learning_rate": 0.0001,
      "loss": 6.4669,
      "loss/crossentropy": 2.5109775930643083,
      "loss/hidden": 4.9265625,
      "loss/jsd": 0.14978713616728784,
      "loss/logits": 0.0,
      "step": 330
    },
    {
      "epoch": 0.017,
      "grad_norm": 57.75,
      "grad_norm_var": 64.21087239583333,
      "learning_rate": 0.0001,
      "loss": 6.4713,
      "loss/crossentropy": 2.497659134864807,
      "loss/hidden": 4.91796875,
      "loss/jsd": 0.14760203529149293,
      "loss/logits": 0.0,
      "step": 340
    },
    {
      "epoch": 0.0175,
      "grad_norm": 52.5,
      "grad_norm_var": 120.26243489583334,
      "learning_rate": 0.0001,
      "loss": 6.4978,
      "loss/crossentropy": 2.402846799790859,
      "loss/hidden": 4.7796875,
      "loss/jsd": 0.13832223881036043,
      "loss/logits": 0.0,
      "step": 350
    },
    {
      "epoch": 0.018,
      "grad_norm": 46.5,
      "grad_norm_var": 21.149739583333332,
      "learning_rate": 0.0001,
      "loss": 6.3607,
      "loss/crossentropy": 2.3924304962158205,
      "loss/hidden": 4.9890625,
      "loss/jsd": 0.1568290738388896,
      "loss/logits": 0.0,
      "step": 360
    },
    {
      "epoch": 0.0185,
      "grad_norm": 44.75,
      "grad_norm_var": 49.326822916666664,
      "learning_rate": 0.0001,
      "loss": 6.3592,
      "loss/crossentropy": 2.4209784388542177,
      "loss/hidden": 4.89765625,
      "loss/jsd": 0.14134480394423007,
      "loss/logits": 0.0,
      "step": 370
    },
    {
      "epoch": 0.019,
      "grad_norm": 43.75,
      "grad_norm_var": 71.22057291666667,
      "learning_rate": 0.0001,
      "loss": 6.2124,
      "loss/crossentropy": 2.549247406423092,
      "loss/hidden": 4.7390625,
      "loss/jsd": 0.140831589885056,
      "loss/logits": 0.0,
      "step": 380
    },
    {
      "epoch": 0.0195,
      "grad_norm": 92.5,
      "grad_norm_var": 9.065077296740351e+17,
      "learning_rate": 0.0001,
      "loss": 6.2864,
      "loss/crossentropy": 2.4922619298100472,
      "loss/hidden": 4.87734375,
      "loss/jsd": 0.1634673684835434,
      "loss/logits": 0.0,
      "step": 390
    },
    {
      "epoch": 0.02,
      "grad_norm": 43.75,
      "grad_norm_var": 9.065077288409414e+17,
      "learning_rate": 0.0001,
      "loss": 6.2254,
      "loss/crossentropy": 2.469875320792198,
      "loss/hidden": 4.82265625,
      "loss/jsd": 0.1564602382481098,
      "loss/logits": 0.0,
      "step": 400
    },
    {
      "epoch": 0.0205,
      "grad_norm": 56.0,
      "grad_norm_var": 47.498958333333334,
      "learning_rate": 0.0001,
      "loss": 6.1795,
      "loss/crossentropy": 2.548477476835251,
      "loss/hidden": 4.75703125,
      "loss/jsd": 0.17199970744550228,
      "loss/logits": 0.0,
      "step": 410
    },
    {
      "epoch": 0.021,
      "grad_norm": 54.75,
      "grad_norm_var": 720.9768229166667,
      "learning_rate": 0.0001,
      "loss": 6.252,
      "loss/crossentropy": 2.479714798927307,
      "loss/hidden": 4.68828125,
      "loss/jsd": 0.1501935562118888,
      "loss/logits": 0.0,
      "step": 420
    },
    {
      "epoch": 0.0215,
      "grad_norm": 47.25,
      "grad_norm_var": 723.6166666666667,
      "learning_rate": 0.0001,
      "loss": 6.1002,
      "loss/crossentropy": 2.529230397939682,
      "loss/hidden": 4.7921875,
      "loss/jsd": 0.15877617206424474,
      "loss/logits": 0.0,
      "step": 430
    },
    {
      "epoch": 0.022,
      "grad_norm": 53.0,
      "grad_norm_var": 1.207597994464615e+18,
      "learning_rate": 0.0001,
      "loss": 6.0501,
      "loss/crossentropy": 2.2404126971960068,
      "loss/hidden": 4.54140625,
      "loss/jsd": 0.1322522010654211,
      "loss/logits": 0.0,
      "step": 440
    },
    {
      "epoch": 0.0225,
      "grad_norm": 3875536896.0,
      "grad_norm_var": 2.004372710541947e+18,
      "learning_rate": 0.0001,
      "loss": 6.1466,
      "loss/crossentropy": 2.430220237374306,
      "loss/hidden": 4.62109375,
      "loss/jsd": 0.14306345414370297,
      "loss/logits": 0.0,
      "step": 450
    },
    {
      "epoch": 0.023,
      "grad_norm": 43.0,
      "grad_norm_var": 9.387366184428504e+17,
      "learning_rate": 0.0001,
      "loss": 6.0412,
      "loss/crossentropy": 2.345375160872936,
      "loss/hidden": 4.620703125,
      "loss/jsd": 0.1385633122175932,
      "loss/logits": 0.0,
      "step": 460
    },
    {
      "epoch": 0.0235,
      "grad_norm": 42.75,
      "grad_norm_var": 21.448958333333334,
      "learning_rate": 0.0001,
      "loss": 5.9336,
      "loss/crossentropy": 2.425405339896679,
      "loss/hidden": 4.60546875,
      "loss/jsd": 0.13772829296067357,
      "loss/logits": 0.0,
      "step": 470
    },
    {
      "epoch": 0.024,
      "grad_norm": 39.75,
      "grad_norm_var": 10.595572916666667,
      "learning_rate": 0.0001,
      "loss": 5.9238,
      "loss/crossentropy": 2.1817762181162834,
      "loss/hidden": 4.540234375,
      "loss/jsd": 0.12882032115012407,
      "loss/logits": 0.0,
      "step": 480
    },
    {
      "epoch": 0.0245,
      "grad_norm": 33.75,
      "grad_norm_var": 21.001822916666665,
      "learning_rate": 0.0001,
      "loss": 6.0109,
      "loss/crossentropy": 2.3736354261636734,
      "loss/hidden": 4.64140625,
      "loss/jsd": 0.1405269218608737,
      "loss/logits": 0.0,
      "step": 490
    },
    {
      "epoch": 0.025,
      "grad_norm": 41.25,
      "grad_norm_var": 220.015625,
      "learning_rate": 0.0001,
      "loss": 5.9307,
      "loss/crossentropy": 2.5042927861213684,
      "loss/hidden": 4.7546875,
      "loss/jsd": 0.18516455199569465,
      "loss/logits": 0.0,
      "step": 500
    },
    {
      "epoch": 0.0255,
      "grad_norm": 41.0,
      "grad_norm_var": 16.257291666666667,
      "learning_rate": 0.0001,
      "loss": 5.9019,
      "loss/crossentropy": 2.526998797059059,
      "loss/hidden": 4.47109375,
      "loss/jsd": 0.13217656817287207,
      "loss/logits": 0.0,
      "step": 510
    },
    {
      "epoch": 0.026,
      "grad_norm": 32.25,
      "grad_norm_var": 16.782291666666666,
      "learning_rate": 0.0001,
      "loss": 5.8327,
      "loss/crossentropy": 2.316130298376083,
      "loss/hidden": 4.387109375,
      "loss/jsd": 0.12394356895238161,
      "loss/logits": 0.0,
      "step": 520
    },
    {
      "epoch": 0.0265,
      "grad_norm": 39.0,
      "grad_norm_var": 24.970833333333335,
      "learning_rate": 0.0001,
      "loss": 5.8284,
      "loss/crossentropy": 2.214504113793373,
      "loss/hidden": 4.623046875,
      "loss/jsd": 0.15524424342438578,
      "loss/logits": 0.0,
      "step": 530
    },
    {
      "epoch": 0.027,
      "grad_norm": 35.75,
      "grad_norm_var": 11.79375,
      "learning_rate": 0.0001,
      "loss": 5.7037,
      "loss/crossentropy": 2.336098350584507,
      "loss/hidden": 4.33515625,
      "loss/jsd": 0.12178284991532565,
      "loss/logits": 0.0,
      "step": 540
    },
    {
      "epoch": 0.0275,
      "grad_norm": 38.0,
      "grad_norm_var": 13.470768229166667,
      "learning_rate": 0.0001,
      "loss": 5.7146,
      "loss/crossentropy": 2.4750932276248934,
      "loss/hidden": 4.41953125,
      "loss/jsd": 0.12415571566671132,
      "loss/logits": 0.0,
      "step": 550
    },
    {
      "epoch": 0.028,
      "grad_norm": 37.0,
      "grad_norm_var": 15.298958333333333,
      "learning_rate": 0.0001,
      "loss": 5.6597,
      "loss/crossentropy": 2.360400839149952,
      "loss/hidden": 4.45546875,
      "loss/jsd": 0.1331789677962661,
      "loss/logits": 0.0,
      "step": 560
    },
    {
      "epoch": 0.0285,
      "grad_norm": 26.75,
      "grad_norm_var": 108.82057291666666,
      "learning_rate": 0.0001,
      "loss": 5.6905,
      "loss/crossentropy": 2.547207270562649,
      "loss/hidden": 4.413671875,
      "loss/jsd": 0.13257503397762777,
      "loss/logits": 0.0,
      "step": 570
    },
    {
      "epoch": 0.029,
      "grad_norm": 38.25,
      "grad_norm_var": 82.65149739583333,
      "learning_rate": 0.0001,
      "loss": 5.707,
      "loss/crossentropy": 2.4661644257605078,
      "loss/hidden": 4.43046875,
      "loss/jsd": 0.13218661015853286,
      "loss/logits": 0.0,
      "step": 580
    },
    {
      "epoch": 0.0295,
      "grad_norm": 33.0,
      "grad_norm_var": 14.656705729166667,
      "learning_rate": 0.0001,
      "loss": 5.6198,
      "loss/crossentropy": 2.3429581418633463,
      "loss/hidden": 4.35390625,
      "loss/jsd": 0.1255058040842414,
      "loss/logits": 0.0,
      "step": 590
    },
    {
      "epoch": 0.03,
      "grad_norm": 30.5,
      "grad_norm_var": 16.014518229166665,
      "learning_rate": 0.0001,
      "loss": 5.5969,
      "loss/crossentropy": 2.6043634325265885,
      "loss/hidden": 4.3796875,
      "loss/jsd": 0.1311176208779216,
      "loss/logits": 0.0,
      "step": 600
    },
    {
      "epoch": 0.0305,
      "grad_norm": 33.0,
      "grad_norm_var": 10.665625,
      "learning_rate": 0.0001,
      "loss": 5.5352,
      "loss/crossentropy": 2.4040530994534492,
      "loss/hidden": 4.219140625,
      "loss/jsd": 0.12296068714931607,
      "loss/logits": 0.0,
      "step": 610
    },
    {
      "epoch": 0.031,
      "grad_norm": 38.75,
      "grad_norm_var": 16.33125,
      "learning_rate": 0.0001,
      "loss": 5.4814,
      "loss/crossentropy": 2.390893703699112,
      "loss/hidden": 4.291796875,
      "loss/jsd": 0.11912889536470175,
      "loss/logits": 0.0,
      "step": 620
    },
    {
      "epoch": 0.0315,
      "grad_norm": 34.75,
      "grad_norm_var": 19.909375,
      "learning_rate": 0.0001,
      "loss": 5.5724,
      "loss/crossentropy": 2.5551778227090836,
      "loss/hidden": 4.251171875,
      "loss/jsd": 0.134556083381176,
      "loss/logits": 0.0,
      "step": 630
    },
    {
      "epoch": 0.032,
      "grad_norm": 33.0,
      "grad_norm_var": 1.2447526950627446e+18,
      "learning_rate": 0.0001,
      "loss": 5.6162,
      "loss/crossentropy": 2.4906763210892677,
      "loss/hidden": 4.20234375,
      "loss/jsd": 0.1178798858076334,
      "loss/logits": 0.0,
      "step": 640
    },
    {
      "epoch": 0.0325,
      "grad_norm": 29.875,
      "grad_norm_var": 1.2447526957786422e+18,
      "learning_rate": 0.0001,
      "loss": 5.5184,
      "loss/crossentropy": 2.437400442361832,
      "loss/hidden": 4.23046875,
      "loss/jsd": 0.12956738714128732,
      "loss/logits": 0.0,
      "step": 650
    },
    {
      "epoch": 0.033,
      "grad_norm": 33.0,
      "grad_norm_var": 27.3134765625,
      "learning_rate": 0.0001,
      "loss": 5.6369,
      "loss/crossentropy": 2.4849177479743956,
      "loss/hidden": 4.262109375,
      "loss/jsd": 0.12098300596699119,
      "loss/logits": 0.0,
      "step": 660
    },
    {
      "epoch": 0.0335,
      "grad_norm": 28.5,
      "grad_norm_var": 17.055989583333332,
      "learning_rate": 0.0001,
      "loss": 5.4991,
      "loss/crossentropy": 2.4364880681037904,
      "loss/hidden": 4.26171875,
      "loss/jsd": 0.12965436410158873,
      "loss/logits": 0.0,
      "step": 670
    },
    {
      "epoch": 0.034,
      "grad_norm": 28.375,
      "grad_norm_var": 19.137955729166666,
      "learning_rate": 0.0001,
      "loss": 5.5161,
      "loss/crossentropy": 2.392630486190319,
      "loss/hidden": 4.173828125,
      "loss/jsd": 0.11459105852991343,
      "loss/logits": 0.0,
      "step": 680
    },
    {
      "epoch": 0.0345,
      "grad_norm": 27.25,
      "grad_norm_var": 13.9322265625,
      "learning_rate": 0.0001,
      "loss": 5.4332,
      "loss/crossentropy": 2.344803684949875,
      "loss/hidden": 4.176953125,
      "loss/jsd": 0.11463690986856818,
      "loss/logits": 0.0,
      "step": 690
    },
    {
      "epoch": 0.035,
      "grad_norm": 34.75,
      "grad_norm_var": 15.854622395833333,
      "learning_rate": 0.0001,
      "loss": 5.5003,
      "loss/crossentropy": 2.395221236348152,
      "loss/hidden": 4.260546875,
      "loss/jsd": 0.1217193447984755,
      "loss/logits": 0.0,
      "step": 700
    },
    {
      "epoch": 0.0355,
      "grad_norm": 25.25,
      "grad_norm_var": 14.663541666666667,
      "learning_rate": 0.0001,
      "loss": 5.4171,
      "loss/crossentropy": 2.4193977400660516,
      "loss/hidden": 4.23828125,
      "loss/jsd": 0.12150606149807572,
      "loss/logits": 0.0,
      "step": 710
    },
    {
      "epoch": 0.036,
      "grad_norm": 26.875,
      "grad_norm_var": 13.142643229166667,
      "learning_rate": 0.0001,
      "loss": 5.3761,
      "loss/crossentropy": 2.2133478626608847,
      "loss/hidden": 4.141796875,
      "loss/jsd": 0.11149341901764273,
      "loss/logits": 0.0,
      "step": 720
    },
    {
      "epoch": 0.0365,
      "grad_norm": 34.25,
      "grad_norm_var": 14.420572916666666,
      "learning_rate": 0.0001,
      "loss": 5.3258,
      "loss/crossentropy": 2.3443893820047377,
      "loss/hidden": 4.090234375,
      "loss/jsd": 0.11677124733105301,
      "loss/logits": 0.0,
      "step": 730
    },
    {
      "epoch": 0.037,
      "grad_norm": 31.25,
      "grad_norm_var": 9.551822916666667,
      "learning_rate": 0.0001,
      "loss": 5.3054,
      "loss/crossentropy": 2.3357947677373887,
      "loss/hidden": 4.194140625,
      "loss/jsd": 0.12083362191915512,
      "loss/logits": 0.0,
      "step": 740
    },
    {
      "epoch": 0.0375,
      "grad_norm": 32.25,
      "grad_norm_var": 9.950455729166666,
      "learning_rate": 0.0001,
      "loss": 5.2645,
      "loss/crossentropy": 2.4039614737033843,
      "loss/hidden": 4.08671875,
      "loss/jsd": 0.1069810570217669,
      "loss/logits": 0.0,
      "step": 750
    },
    {
      "epoch": 0.038,
      "grad_norm": 24.0,
      "grad_norm_var": 1.1710062557908698e+18,
      "learning_rate": 0.0001,
      "loss": 5.3587,
      "loss/crossentropy": 2.4738259255886077,
      "loss/hidden": 4.209765625,
      "loss/jsd": 0.13927901685237884,
      "loss/logits": 0.0,
      "step": 760
    },
    {
      "epoch": 0.0385,
      "grad_norm": 29.125,
      "grad_norm_var": 1.1710062386255852e+18,
      "learning_rate": 0.0001,
      "loss": 5.3753,
      "loss/crossentropy": 2.2876866430044176,
      "loss/hidden": 4.1421875,
      "loss/jsd": 0.11211317665874958,
      "loss/logits": 0.0,
      "step": 770
    },
    {
      "epoch": 0.039,
      "grad_norm": 27.875,
      "grad_norm_var": 485.3025390625,
      "learning_rate": 0.0001,
      "loss": 5.2875,
      "loss/crossentropy": 2.3789359077811243,
      "loss/hidden": 4.13828125,
      "loss/jsd": 0.11359207816421986,
      "loss/logits": 0.0,
      "step": 780
    },
    {
      "epoch": 0.0395,
      "grad_norm": 21.875,
      "grad_norm_var": 19.980208333333334,
      "learning_rate": 0.0001,
      "loss": 5.2659,
      "loss/crossentropy": 2.4840095818042753,
      "loss/hidden": 4.076953125,
      "loss/jsd": 0.1078010268509388,
      "loss/logits": 0.0,
      "step": 790
    },
    {
      "epoch": 0.04,
      "grad_norm": 32.75,
      "grad_norm_var": 21.772330729166665,
      "learning_rate": 0.0001,
      "loss": 5.3525,
      "loss/crossentropy": 2.2179358512163163,
      "loss/hidden": 4.16796875,
      "loss/jsd": 0.11819018721580506,
      "loss/logits": 0.0,
      "step": 800
    },
    {
      "epoch": 0.0405,
      "grad_norm": 27.0,
      "grad_norm_var": 22.1884765625,
      "learning_rate": 0.0001,
      "loss": 5.3043,
      "loss/crossentropy": 2.4508845895528792,
      "loss/hidden": 4.133203125,
      "loss/jsd": 0.11473200833424926,
      "loss/logits": 0.0,
      "step": 810
    },
    {
      "epoch": 0.041,
      "grad_norm": 28.625,
      "grad_norm_var": 62.53515625,
      "learning_rate": 0.0001,
      "loss": 5.2633,
      "loss/crossentropy": 2.5463142573833464,
      "loss/hidden": 4.076171875,
      "loss/jsd": 0.12316551432013512,
      "loss/logits": 0.0,
      "step": 820
    },
    {
      "epoch": 0.0415,
      "grad_norm": 26.625,
      "grad_norm_var": 29.2150390625,
      "learning_rate": 0.0001,
      "loss": 5.2498,
      "loss/crossentropy": 2.379361332952976,
      "loss/hidden": 4.125,
      "loss/jsd": 0.11994905360043048,
      "loss/logits": 0.0,
      "step": 830
    },
    {
      "epoch": 0.042,
      "grad_norm": 27.75,
      "grad_norm_var": 37.1197265625,
      "learning_rate": 0.0001,
      "loss": 5.25,
      "loss/crossentropy": 2.448214793205261,
      "loss/hidden": 4.233203125,
      "loss/jsd": 0.13263647919520735,
      "loss/logits": 0.0,
      "step": 840
    },
    {
      "epoch": 0.0425,
      "grad_norm": 26.25,
      "grad_norm_var": 13.433072916666667,
      "learning_rate": 0.0001,
      "loss": 5.1491,
      "loss/crossentropy": 2.4302526518702505,
      "loss/hidden": 4.12578125,
      "loss/jsd": 0.11334973787888884,
      "loss/logits": 0.0,
      "step": 850
    },
    {
      "epoch": 0.043,
      "grad_norm": 23.75,
      "grad_norm_var": 7.470572916666667,
      "learning_rate": 0.0001,
      "loss": 5.1671,
      "loss/crossentropy": 2.415765553712845,
      "loss/hidden": 4.11328125,
      "loss/jsd": 0.11990332859568298,
      "loss/logits": 0.0,
      "step": 860
    },
    {
      "epoch": 0.0435,
      "grad_norm": 25.5,
      "grad_norm_var": 6.077083333333333,
      "learning_rate": 0.0001,
      "loss": 5.1279,
      "loss/crossentropy": 2.3868868976831434,
      "loss/hidden": 4.0671875,
      "loss/jsd": 0.11438164403662085,
      "loss/logits": 0.0,
      "step": 870
    },
    {
      "epoch": 0.044,
      "grad_norm": 25.0,
      "grad_norm_var": 48.50416666666667,
      "learning_rate": 0.0001,
      "loss": 5.18,
      "loss/crossentropy": 2.367817610502243,
      "loss/hidden": 4.136328125,
      "loss/jsd": 0.12616985198110342,
      "loss/logits": 0.0,
      "step": 880
    },
    {
      "epoch": 0.0445,
      "grad_norm": 23.625,
      "grad_norm_var": 52.3375,
      "learning_rate": 0.0001,
      "loss": 5.1786,
      "loss/crossentropy": 2.4342163532972334,
      "loss/hidden": 4.0125,
      "loss/jsd": 0.12039547078311444,
      "loss/logits": 0.0,
      "step": 890
    },
    {
      "epoch": 0.045,
      "grad_norm": 28.125,
      "grad_norm_var": 6.708268229166666,
      "learning_rate": 0.0001,
      "loss": 5.1451,
      "loss/crossentropy": 2.4633941307663916,
      "loss/hidden": 4.08125,
      "loss/jsd": 0.11877955347299576,
      "loss/logits": 0.0,
      "step": 900
    },
    {
      "epoch": 0.0455,
      "grad_norm": 28.5,
      "grad_norm_var": 8.4603515625,
      "learning_rate": 0.0001,
      "loss": 5.1919,
      "loss/crossentropy": 2.3779468327760696,
      "loss/hidden": 4.058984375,
      "loss/jsd": 0.11588607728481293,
      "loss/logits": 0.0,
      "step": 910
    },
    {
      "epoch": 0.046,
      "grad_norm": 38.25,
      "grad_norm_var": 59.06295572916667,
      "learning_rate": 0.0001,
      "loss": 5.2033,
      "loss/crossentropy": 2.4956902295351027,
      "loss/hidden": 4.107421875,
      "loss/jsd": 0.11758697256445885,
      "loss/logits": 0.0,
      "step": 920
    },
    {
      "epoch": 0.0465,
      "grad_norm": 22.625,
      "grad_norm_var": 21.1744140625,
      "learning_rate": 0.0001,
      "loss": 5.1248,
      "loss/crossentropy": 2.4070512309670447,
      "loss/hidden": 4.123828125,
      "loss/jsd": 0.12089485572651029,
      "loss/logits": 0.0,
      "step": 930
    },
    {
      "epoch": 0.047,
      "grad_norm": 47.75,
      "grad_norm_var": 164.896875,
      "learning_rate": 0.0001,
      "loss": 5.1273,
      "loss/crossentropy": 2.1984025448560716,
      "loss/hidden": 3.83359375,
      "loss/jsd": 0.10510765034705401,
      "loss/logits": 0.0,
      "step": 940
    },
    {
      "epoch": 0.0475,
      "grad_norm": 24.125,
      "grad_norm_var": 171.48326822916667,
      "learning_rate": 0.0001,
      "loss": 5.0933,
      "loss/crossentropy": 2.408414696156979,
      "loss/hidden": 3.9015625,
      "loss/jsd": 0.09813609030097722,
      "loss/logits": 0.0,
      "step": 950
    },
    {
      "epoch": 0.048,
      "grad_norm": 25.5,
      "grad_norm_var": 10.351041666666667,
      "learning_rate": 0.0001,
      "loss": 5.0887,
      "loss/crossentropy": 2.3635219663381575,
      "loss/hidden": 3.983984375,
      "loss/jsd": 0.10892721712589264,
      "loss/logits": 0.0,
      "step": 960
    },
    {
      "epoch": 0.0485,
      "grad_norm": 23.25,
      "grad_norm_var": 15.676497395833334,
      "learning_rate": 0.0001,
      "loss": 5.0293,
      "loss/crossentropy": 2.182341808080673,
      "loss/hidden": 3.92421875,
      "loss/jsd": 0.10646048728376627,
      "loss/logits": 0.0,
      "step": 970
    },
    {
      "epoch": 0.049,
      "grad_norm": 26.625,
      "grad_norm_var": 7.992708333333334,
      "learning_rate": 0.0001,
      "loss": 5.1407,
      "loss/crossentropy": 2.4966017305850983,
      "loss/hidden": 3.909375,
      "loss/jsd": 0.11931864526122808,
      "loss/logits": 0.0,
      "step": 980
    },
    {
      "epoch": 0.0495,
      "grad_norm": 25.125,
      "grad_norm_var": 915.2077473958333,
      "learning_rate": 0.0001,
      "loss": 5.1799,
      "loss/crossentropy": 2.3614319562911987,
      "loss/hidden": 3.95390625,
      "loss/jsd": 0.10783975422382355,
      "loss/logits": 0.0,
      "step": 990
    },
    {
      "epoch": 0.05,
      "grad_norm": 24.875,
      "grad_norm_var": 862.96640625,
      "learning_rate": 0.0001,
      "loss": 5.1175,
      "loss/crossentropy": 2.3259101063013077,
      "loss/hidden": 4.09140625,
      "loss/jsd": 0.11582606900483369,
      "loss/logits": 0.0,
      "step": 1000
    },
    {
      "epoch": 0.0505,
      "grad_norm": 27.0,
      "grad_norm_var": 36.96243489583333,
      "learning_rate": 0.0001,
      "loss": 5.1445,
      "loss/crossentropy": 2.4153922617435457,
      "loss/hidden": 4.044140625,
      "loss/jsd": 0.11763136927038431,
      "loss/logits": 0.0,
      "step": 1010
    },
    {
      "epoch": 0.051,
      "grad_norm": 27.0,
      "grad_norm_var": 11.583333333333334,
      "learning_rate": 0.0001,
      "loss": 5.0695,
      "loss/crossentropy": 2.287649059295654,
      "loss/hidden": 3.97578125,
      "loss/jsd": 0.10912037892267108,
      "loss/logits": 0.0,
      "step": 1020
    },
    {
      "epoch": 0.0515,
      "grad_norm": 34.25,
      "grad_norm_var": 598.6910807291666,
      "learning_rate": 0.0001,
      "loss": 5.1531,
      "loss/crossentropy": 2.5355153501033785,
      "loss/hidden": 3.972265625,
      "loss/jsd": 0.11578338220715523,
      "loss/logits": 0.0,
      "step": 1030
    },
    {
      "epoch": 0.052,
      "grad_norm": 23.0,
      "grad_norm_var": 149.62389322916667,
      "learning_rate": 0.0001,
      "loss": 5.1453,
      "loss/crossentropy": 2.328887623548508,
      "loss/hidden": 3.84609375,
      "loss/jsd": 0.1067446961067617,
      "loss/logits": 0.0,
      "step": 1040
    },
    {
      "epoch": 0.0525,
      "grad_norm": 22.625,
      "grad_norm_var": 23.629166666666666,
      "learning_rate": 0.0001,
      "loss": 5.0775,
      "loss/crossentropy": 2.3245414569973946,
      "loss/hidden": 3.950390625,
      "loss/jsd": 0.11564150396734477,
      "loss/logits": 0.0,
      "step": 1050
    },
    {
      "epoch": 0.053,
      "grad_norm": 29.375,
      "grad_norm_var": 22.822330729166666,
      "learning_rate": 0.0001,
      "loss": 4.929,
      "loss/crossentropy": 2.5518812984228134,
      "loss/hidden": 3.76796875,
      "loss/jsd": 0.10029144948348404,
      "loss/logits": 0.0,
      "step": 1060
    },
    {
      "epoch": 0.0535,
      "grad_norm": 22.875,
      "grad_norm_var": 27.373372395833332,
      "learning_rate": 0.0001,
      "loss": 5.1682,
      "loss/crossentropy": 2.3814490526914596,
      "loss/hidden": 4.084765625,
      "loss/jsd": 0.13794842325150966,
      "loss/logits": 0.0,
      "step": 1070
    },
    {
      "epoch": 0.054,
      "grad_norm": 30.375,
      "grad_norm_var": 25.968684895833334,
      "learning_rate": 0.0001,
      "loss": 5.0446,
      "loss/crossentropy": 2.336636045575142,
      "loss/hidden": 3.98984375,
      "loss/jsd": 0.11006514001637697,
      "loss/logits": 0.0,
      "step": 1080
    },
    {
      "epoch": 0.0545,
      "grad_norm": 25.5,
      "grad_norm_var": 32.0447265625,
      "learning_rate": 0.0001,
      "loss": 5.0339,
      "loss/crossentropy": 2.2337013885378836,
      "loss/hidden": 3.945703125,
      "loss/jsd": 0.11723029632121325,
      "loss/logits": 0.0,
      "step": 1090
    },
    {
      "epoch": 0.055,
      "grad_norm": 25.375,
      "grad_norm_var": 102.66432291666666,
      "learning_rate": 0.0001,
      "loss": 5.0155,
      "loss/crossentropy": 2.443159765005112,
      "loss/hidden": 4.062890625,
      "loss/jsd": 0.11166490567848086,
      "loss/logits": 0.0,
      "step": 1100
    },
    {
      "epoch": 0.0555,
      "grad_norm": 26.25,
      "grad_norm_var": 12.558072916666667,
      "learning_rate": 0.0001,
      "loss": 5.0531,
      "loss/crossentropy": 2.2338882118463514,
      "loss/hidden": 4.025,
      "loss/jsd": 0.11465255348011852,
      "loss/logits": 0.0,
      "step": 1110
    },
    {
      "epoch": 0.056,
      "grad_norm": 25.875,
      "grad_norm_var": 8.347916666666666,
      "learning_rate": 0.0001,
      "loss": 5.0976,
      "loss/crossentropy": 2.3596479177474974,
      "loss/hidden": 3.940625,
      "loss/jsd": 0.11759824641048908,
      "loss/logits": 0.0,
      "step": 1120
    },
    {
      "epoch": 0.0565,
      "grad_norm": 30.25,
      "grad_norm_var": 188.1353515625,
      "learning_rate": 0.0001,
      "loss": 5.0785,
      "loss/crossentropy": 2.3698789328336716,
      "loss/hidden": 3.962109375,
      "loss/jsd": 0.1172801936045289,
      "loss/logits": 0.0,
      "step": 1130
    },
    {
      "epoch": 0.057,
      "grad_norm": 26.375,
      "grad_norm_var": 185.04765625,
      "learning_rate": 0.0001,
      "loss": 5.0927,
      "loss/crossentropy": 2.3481896728277207,
      "loss/hidden": 3.9609375,
      "loss/jsd": 0.10608052760362625,
      "loss/logits": 0.0,
      "step": 1140
    },
    {
      "epoch": 0.0575,
      "grad_norm": 22.875,
      "grad_norm_var": 125.32233072916667,
      "learning_rate": 0.0001,
      "loss": 5.0263,
      "loss/crossentropy": 2.301522643119097,
      "loss/hidden": 3.8,
      "loss/jsd": 0.10154257528483868,
      "loss/logits": 0.0,
      "step": 1150
    },
    {
      "epoch": 0.058,
      "grad_norm": 27.625,
      "grad_norm_var": 81.21432291666666,
      "learning_rate": 0.0001,
      "loss": 5.1087,
      "loss/crossentropy": 2.3300373941659926,
      "loss/hidden": 3.923828125,
      "loss/jsd": 0.10997985871508717,
      "loss/logits": 0.0,
      "step": 1160
    },
    {
      "epoch": 0.0585,
      "grad_norm": 22.0,
      "grad_norm_var": 37.805989583333336,
      "learning_rate": 0.0001,
      "loss": 4.9669,
      "loss/crossentropy": 2.3570085942745207,
      "loss/hidden": 3.903125,
      "loss/jsd": 0.12716795089654626,
      "loss/logits": 0.0,
      "step": 1170
    },
    {
      "epoch": 0.059,
      "grad_norm": 28.25,
      "grad_norm_var": 6.526822916666666,
      "learning_rate": 0.0001,
      "loss": 4.8827,
      "loss/crossentropy": 2.4714103788137436,
      "loss/hidden": 3.878125,
      "loss/jsd": 0.11338211484253406,
      "loss/logits": 0.0,
      "step": 1180
    },
    {
      "epoch": 0.0595,
      "grad_norm": 25.0,
      "grad_norm_var": 1.0217717449682671e+18,
      "learning_rate": 0.0001,
      "loss": 5.0544,
      "loss/crossentropy": 2.170953643321991,
      "loss/hidden": 3.91875,
      "loss/jsd": 0.11225487310439348,
      "loss/logits": 0.0,
      "step": 1190
    },
    {
      "epoch": 0.06,
      "grad_norm": 22.125,
      "grad_norm_var": 22.508072916666666,
      "learning_rate": 0.0001,
      "loss": 4.8895,
      "loss/crossentropy": 2.4479696050286295,
      "loss/hidden": 3.896484375,
      "loss/jsd": 0.10494228331372142,
      "loss/logits": 0.0,
      "step": 1200
    },
    {
      "epoch": 0.0605,
      "grad_norm": 22.25,
      "grad_norm_var": 19.080989583333334,
      "learning_rate": 0.0001,
      "loss": 4.8699,
      "loss/crossentropy": 2.3343143433332445,
      "loss/hidden": 3.787109375,
      "loss/jsd": 0.10432742889970541,
      "loss/logits": 0.0,
      "step": 1210
    },
    {
      "epoch": 0.061,
      "grad_norm": 19.0,
      "grad_norm_var": 7.299934895833333,
      "learning_rate": 0.0001,
      "loss": 4.9113,
      "loss/crossentropy": 2.2152185067534447,
      "loss/hidden": 3.838671875,
      "loss/jsd": 0.10314544131979346,
      "loss/logits": 0.0,
      "step": 1220
    },
    {
      "epoch": 0.0615,
      "grad_norm": 25.125,
      "grad_norm_var": 8.783333333333333,
      "learning_rate": 0.0001,
      "loss": 4.8793,
      "loss/crossentropy": 2.3982258841395376,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.1033841515891254,
      "loss/logits": 0.0,
      "step": 1230
    },
    {
      "epoch": 0.062,
      "grad_norm": 24.25,
      "grad_norm_var": 8.654166666666667,
      "learning_rate": 0.0001,
      "loss": 4.936,
      "loss/crossentropy": 2.3861924752593042,
      "loss/hidden": 3.990625,
      "loss/jsd": 0.1316368247382343,
      "loss/logits": 0.0,
      "step": 1240
    },
    {
      "epoch": 0.0625,
      "grad_norm": 27.625,
      "grad_norm_var": 18.838997395833335,
      "learning_rate": 0.0001,
      "loss": 5.0574,
      "loss/crossentropy": 2.3481432244181635,
      "loss/hidden": 3.886328125,
      "loss/jsd": 0.12455893289297819,
      "loss/logits": 0.0,
      "step": 1250
    },
    {
      "epoch": 0.063,
      "grad_norm": 24.875,
      "grad_norm_var": 741.0330729166667,
      "learning_rate": 0.0001,
      "loss": 5.054,
      "loss/crossentropy": 2.50970872938633,
      "loss/hidden": 3.89375,
      "loss/jsd": 0.11707814577966928,
      "loss/logits": 0.0,
      "step": 1260
    },
    {
      "epoch": 0.0635,
      "grad_norm": 22.25,
      "grad_norm_var": 766.54140625,
      "learning_rate": 0.0001,
      "loss": 4.9292,
      "loss/crossentropy": 2.214522284269333,
      "loss/hidden": 3.817578125,
      "loss/jsd": 0.09662074805237353,
      "loss/logits": 0.0,
      "step": 1270
    },
    {
      "epoch": 0.064,
      "grad_norm": 27.125,
      "grad_norm_var": 1.2075980051835433e+18,
      "learning_rate": 0.0001,
      "loss": 4.9727,
      "loss/crossentropy": 2.5177758872509,
      "loss/hidden": 3.872265625,
      "loss/jsd": 0.12324077049270273,
      "loss/logits": 0.0,
      "step": 1280
    },
    {
      "epoch": 0.0645,
      "grad_norm": 26.25,
      "grad_norm_var": 4.482291666666667,
      "learning_rate": 0.0001,
      "loss": 4.8651,
      "loss/crossentropy": 2.4133356541395186,
      "loss/hidden": 3.8109375,
      "loss/jsd": 0.10085376175120472,
      "loss/logits": 0.0,
      "step": 1290
    },
    {
      "epoch": 0.065,
      "grad_norm": 20.875,
      "grad_norm_var": 4.7875,
      "learning_rate": 0.0001,
      "loss": 4.8874,
      "loss/crossentropy": 2.211686734855175,
      "loss/hidden": 3.82578125,
      "loss/jsd": 0.10324386316351593,
      "loss/logits": 0.0,
      "step": 1300
    },
    {
      "epoch": 0.0655,
      "grad_norm": 25.125,
      "grad_norm_var": 39.35045572916667,
      "learning_rate": 0.0001,
      "loss": 4.9265,
      "loss/crossentropy": 2.386268785595894,
      "loss/hidden": 3.837890625,
      "loss/jsd": 0.11206256924197078,
      "loss/logits": 0.0,
      "step": 1310
    },
    {
      "epoch": 0.066,
      "grad_norm": 25.5,
      "grad_norm_var": 39.68020833333333,
      "learning_rate": 0.0001,
      "loss": 4.9719,
      "loss/crossentropy": 2.3294328808784486,
      "loss/hidden": 3.8640625,
      "loss/jsd": 0.11526230238378048,
      "loss/logits": 0.0,
      "step": 1320
    },
    {
      "epoch": 0.0665,
      "grad_norm": 23.375,
      "grad_norm_var": 47.66295572916667,
      "learning_rate": 0.0001,
      "loss": 4.922,
      "loss/crossentropy": 2.38586545586586,
      "loss/hidden": 3.7203125,
      "loss/jsd": 0.09609230635687709,
      "loss/logits": 0.0,
      "step": 1330
    },
    {
      "epoch": 0.067,
      "grad_norm": 25.125,
      "grad_norm_var": 36.25305989583333,
      "learning_rate": 0.0001,
      "loss": 4.9463,
      "loss/crossentropy": 2.4498814970254896,
      "loss/hidden": 3.84296875,
      "loss/jsd": 0.10662997653707862,
      "loss/logits": 0.0,
      "step": 1340
    },
    {
      "epoch": 0.0675,
      "grad_norm": 26.625,
      "grad_norm_var": 34.154622395833336,
      "learning_rate": 0.0001,
      "loss": 4.89,
      "loss/crossentropy": 2.3147580534219743,
      "loss/hidden": 3.840625,
      "loss/jsd": 0.10548559352755546,
      "loss/logits": 0.0,
      "step": 1350
    },
    {
      "epoch": 0.068,
      "grad_norm": 20.25,
      "grad_norm_var": 5.3369140625,
      "learning_rate": 0.0001,
      "loss": 4.9495,
      "loss/crossentropy": 2.2381860077381135,
      "loss/hidden": 3.936328125,
      "loss/jsd": 0.1049613301642239,
      "loss/logits": 0.0,
      "step": 1360
    },
    {
      "epoch": 0.0685,
      "grad_norm": 21.625,
      "grad_norm_var": 42.57604166666667,
      "learning_rate": 0.0001,
      "loss": 4.9902,
      "loss/crossentropy": 2.3451401717960834,
      "loss/hidden": 3.97578125,
      "loss/jsd": 0.10501982429996133,
      "loss/logits": 0.0,
      "step": 1370
    },
    {
      "epoch": 0.069,
      "grad_norm": 25.5,
      "grad_norm_var": 13.911393229166666,
      "learning_rate": 0.0001,
      "loss": 4.8738,
      "loss/crossentropy": 2.2887198269367217,
      "loss/hidden": 3.948828125,
      "loss/jsd": 0.10703569920733572,
      "loss/logits": 0.0,
      "step": 1380
    },
    {
      "epoch": 0.0695,
      "grad_norm": 24.0,
      "grad_norm_var": 4.178125,
      "learning_rate": 0.0001,
      "loss": 4.908,
      "loss/crossentropy": 2.4341419368982313,
      "loss/hidden": 3.9109375,
      "loss/jsd": 0.13313074046745896,
      "loss/logits": 0.0,
      "step": 1390
    },
    {
      "epoch": 0.07,
      "grad_norm": 25.5,
      "grad_norm_var": 3.2643229166666665,
      "learning_rate": 0.0001,
      "loss": 4.8483,
      "loss/crossentropy": 2.3005983904004097,
      "loss/hidden": 3.794921875,
      "loss/jsd": 0.1167063161265105,
      "loss/logits": 0.0,
      "step": 1400
    },
    {
      "epoch": 0.0705,
      "grad_norm": 25.375,
      "grad_norm_var": 2.6684895833333333,
      "learning_rate": 0.0001,
      "loss": 4.8661,
      "loss/crossentropy": 2.3177727833390236,
      "loss/hidden": 3.76328125,
      "loss/jsd": 0.09948643315583468,
      "loss/logits": 0.0,
      "step": 1410
    },
    {
      "epoch": 0.071,
      "grad_norm": 21.25,
      "grad_norm_var": 6.670572916666667,
      "learning_rate": 0.0001,
      "loss": 4.8736,
      "loss/crossentropy": 2.2698763489723204,
      "loss/hidden": 3.831640625,
      "loss/jsd": 0.10282253352925182,
      "loss/logits": 0.0,
      "step": 1420
    },
    {
      "epoch": 0.0715,
      "grad_norm": 18.625,
      "grad_norm_var": 8.87265625,
      "learning_rate": 0.0001,
      "loss": 4.8039,
      "loss/crossentropy": 2.360131266713142,
      "loss/hidden": 3.722265625,
      "loss/jsd": 0.10547879729419947,
      "loss/logits": 0.0,
      "step": 1430
    },
    {
      "epoch": 0.072,
      "grad_norm": 21.75,
      "grad_norm_var": 3.8889973958333335,
      "learning_rate": 0.0001,
      "loss": 4.7269,
      "loss/crossentropy": 2.311430121213198,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.09480313453823327,
      "loss/logits": 0.0,
      "step": 1440
    },
    {
      "epoch": 0.0725,
      "grad_norm": 29.75,
      "grad_norm_var": 7.685416666666667,
      "learning_rate": 0.0001,
      "loss": 4.7292,
      "loss/crossentropy": 2.4506467133760452,
      "loss/hidden": 3.672265625,
      "loss/jsd": 0.09663807023316622,
      "loss/logits": 0.0,
      "step": 1450
    },
    {
      "epoch": 0.073,
      "grad_norm": 23.25,
      "grad_norm_var": 8.416666666666666,
      "learning_rate": 0.0001,
      "loss": 4.7346,
      "loss/crossentropy": 2.2691701710224152,
      "loss/hidden": 3.836328125,
      "loss/jsd": 0.1028917589224875,
      "loss/logits": 0.0,
      "step": 1460
    },
    {
      "epoch": 0.0735,
      "grad_norm": 20.375,
      "grad_norm_var": 7.246875,
      "learning_rate": 0.0001,
      "loss": 4.7517,
      "loss/crossentropy": 2.3083701550960543,
      "loss/hidden": 3.714453125,
      "loss/jsd": 0.09604525147005916,
      "loss/logits": 0.0,
      "step": 1470
    },
    {
      "epoch": 0.074,
      "grad_norm": 22.0,
      "grad_norm_var": 11.672916666666667,
      "learning_rate": 0.0001,
      "loss": 4.8113,
      "loss/crossentropy": 2.3635326638817786,
      "loss/hidden": 3.6703125,
      "loss/jsd": 0.10219773268327118,
      "loss/logits": 0.0,
      "step": 1480
    },
    {
      "epoch": 0.0745,
      "grad_norm": 21.375,
      "grad_norm_var": 5.637239583333334,
      "learning_rate": 0.0001,
      "loss": 4.798,
      "loss/crossentropy": 2.182288531959057,
      "loss/hidden": 3.784375,
      "loss/jsd": 0.09713765853084624,
      "loss/logits": 0.0,
      "step": 1490
    },
    {
      "epoch": 0.075,
      "grad_norm": 22.375,
      "grad_norm_var": 13.480143229166666,
      "learning_rate": 0.0001,
      "loss": 4.9073,
      "loss/crossentropy": 2.209014095366001,
      "loss/hidden": 3.77734375,
      "loss/jsd": 0.100444171205163,
      "loss/logits": 0.0,
      "step": 1500
    },
    {
      "epoch": 0.0755,
      "grad_norm": 20.25,
      "grad_norm_var": 15.253125,
      "learning_rate": 0.0001,
      "loss": 4.8648,
      "loss/crossentropy": 2.307139050960541,
      "loss/hidden": 3.835546875,
      "loss/jsd": 0.10750290956348181,
      "loss/logits": 0.0,
      "step": 1510
    },
    {
      "epoch": 0.076,
      "grad_norm": 22.25,
      "grad_norm_var": 5.84765625,
      "learning_rate": 0.0001,
      "loss": 4.7021,
      "loss/crossentropy": 2.4567115128040315,
      "loss/hidden": 3.641015625,
      "loss/jsd": 0.0963326326571405,
      "loss/logits": 0.0,
      "step": 1520
    },
    {
      "epoch": 0.0765,
      "grad_norm": 23.0,
      "grad_norm_var": 17.799934895833335,
      "learning_rate": 0.0001,
      "loss": 4.7726,
      "loss/crossentropy": 2.3501833245158195,
      "loss/hidden": 3.71171875,
      "loss/jsd": 0.09695078176446259,
      "loss/logits": 0.0,
      "step": 1530
    },
    {
      "epoch": 0.077,
      "grad_norm": 26.875,
      "grad_norm_var": 14.445572916666666,
      "learning_rate": 0.0001,
      "loss": 4.7776,
      "loss/crossentropy": 2.35235877931118,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.09894683174788951,
      "loss/logits": 0.0,
      "step": 1540
    },
    {
      "epoch": 0.0775,
      "grad_norm": 20.0,
      "grad_norm_var": 6.866080729166667,
      "learning_rate": 0.0001,
      "loss": 4.7465,
      "loss/crossentropy": 2.3319214552640917,
      "loss/hidden": 3.678515625,
      "loss/jsd": 0.10175617430359125,
      "loss/logits": 0.0,
      "step": 1550
    },
    {
      "epoch": 0.078,
      "grad_norm": 25.75,
      "grad_norm_var": 5.9306640625,
      "learning_rate": 0.0001,
      "loss": 4.7662,
      "loss/crossentropy": 2.312511496245861,
      "loss/hidden": 3.82421875,
      "loss/jsd": 0.10424250243231654,
      "loss/logits": 0.0,
      "step": 1560
    },
    {
      "epoch": 0.0785,
      "grad_norm": 19.25,
      "grad_norm_var": 7.527018229166667,
      "learning_rate": 0.0001,
      "loss": 4.7506,
      "loss/crossentropy": 2.195492114126682,
      "loss/hidden": 3.806640625,
      "loss/jsd": 0.10378086129203438,
      "loss/logits": 0.0,
      "step": 1570
    },
    {
      "epoch": 0.079,
      "grad_norm": 20.875,
      "grad_norm_var": 5.69765625,
      "learning_rate": 0.0001,
      "loss": 4.7525,
      "loss/crossentropy": 2.3451679602265356,
      "loss/hidden": 3.64609375,
      "loss/jsd": 0.10021187355741859,
      "loss/logits": 0.0,
      "step": 1580
    },
    {
      "epoch": 0.0795,
      "grad_norm": 25.125,
      "grad_norm_var": 4.002083333333333,
      "learning_rate": 0.0001,
      "loss": 4.7907,
      "loss/crossentropy": 2.235419529676437,
      "loss/hidden": 3.76875,
      "loss/jsd": 0.1017349574714899,
      "loss/logits": 0.0,
      "step": 1590
    },
    {
      "epoch": 0.08,
      "grad_norm": 17.5,
      "grad_norm_var": 6.187239583333334,
      "learning_rate": 0.0001,
      "loss": 4.7544,
      "loss/crossentropy": 2.349038490653038,
      "loss/hidden": 3.75859375,
      "loss/jsd": 0.10723181385546923,
      "loss/logits": 0.0,
      "step": 1600
    },
    {
      "epoch": 0.0805,
      "grad_norm": 21.5,
      "grad_norm_var": 5.036458333333333,
      "learning_rate": 0.0001,
      "loss": 4.7984,
      "loss/crossentropy": 2.2953826270997526,
      "loss/hidden": 3.735546875,
      "loss/jsd": 0.10434331484138966,
      "loss/logits": 0.0,
      "step": 1610
    },
    {
      "epoch": 0.081,
      "grad_norm": 21.625,
      "grad_norm_var": 2.8671223958333334,
      "learning_rate": 0.0001,
      "loss": 4.7802,
      "loss/crossentropy": 2.420463111996651,
      "loss/hidden": 3.7671875,
      "loss/jsd": 0.09350865064188837,
      "loss/logits": 0.0,
      "step": 1620
    },
    {
      "epoch": 0.0815,
      "grad_norm": 21.875,
      "grad_norm_var": 5.375455729166666,
      "learning_rate": 0.0001,
      "loss": 4.7768,
      "loss/crossentropy": 2.4329511165618896,
      "loss/hidden": 3.770703125,
      "loss/jsd": 0.11144884563982486,
      "loss/logits": 0.0,
      "step": 1630
    },
    {
      "epoch": 0.082,
      "grad_norm": 18.0,
      "grad_norm_var": 5.853059895833334,
      "learning_rate": 0.0001,
      "loss": 4.81,
      "loss/crossentropy": 2.3901975452899933,
      "loss/hidden": 3.816015625,
      "loss/jsd": 0.11511239362880588,
      "loss/logits": 0.0,
      "step": 1640
    },
    {
      "epoch": 0.0825,
      "grad_norm": 18.625,
      "grad_norm_var": 6.853059895833334,
      "learning_rate": 0.0001,
      "loss": 4.8666,
      "loss/crossentropy": 2.42452190220356,
      "loss/hidden": 3.791015625,
      "loss/jsd": 0.10730197560042143,
      "loss/logits": 0.0,
      "step": 1650
    },
    {
      "epoch": 0.083,
      "grad_norm": 22.125,
      "grad_norm_var": 5.945768229166666,
      "learning_rate": 0.0001,
      "loss": 4.825,
      "loss/crossentropy": 2.415967509150505,
      "loss/hidden": 3.7140625,
      "loss/jsd": 0.10223841555416584,
      "loss/logits": 0.0,
      "step": 1660
    },
    {
      "epoch": 0.0835,
      "grad_norm": 19.625,
      "grad_norm_var": 4.648372395833333,
      "learning_rate": 0.0001,
      "loss": 4.6893,
      "loss/crossentropy": 2.346050335466862,
      "loss/hidden": 3.75234375,
      "loss/jsd": 0.10205129384994507,
      "loss/logits": 0.0,
      "step": 1670
    },
    {
      "epoch": 0.084,
      "grad_norm": 26.75,
      "grad_norm_var": 6.887239583333334,
      "learning_rate": 0.0001,
      "loss": 4.7759,
      "loss/crossentropy": 2.272695492208004,
      "loss/hidden": 3.740234375,
      "loss/jsd": 0.09743564091622829,
      "loss/logits": 0.0,
      "step": 1680
    },
    {
      "epoch": 0.0845,
      "grad_norm": 21.25,
      "grad_norm_var": 8.242122395833333,
      "learning_rate": 0.0001,
      "loss": 4.7886,
      "loss/crossentropy": 2.421866828203201,
      "loss/hidden": 3.801171875,
      "loss/jsd": 0.10874381214380265,
      "loss/logits": 0.0,
      "step": 1690
    },
    {
      "epoch": 0.085,
      "grad_norm": 21.875,
      "grad_norm_var": 5.842643229166667,
      "learning_rate": 0.0001,
      "loss": 4.7021,
      "loss/crossentropy": 2.389561951160431,
      "loss/hidden": 3.679296875,
      "loss/jsd": 0.1009491034783423,
      "loss/logits": 0.0,
      "step": 1700
    },
    {
      "epoch": 0.0855,
      "grad_norm": 21.625,
      "grad_norm_var": 13.94765625,
      "learning_rate": 0.0001,
      "loss": 4.8137,
      "loss/crossentropy": 2.3791208446025847,
      "loss/hidden": 3.775,
      "loss/jsd": 0.11071940269321204,
      "loss/logits": 0.0,
      "step": 1710
    },
    {
      "epoch": 0.086,
      "grad_norm": 20.5,
      "grad_norm_var": 13.2603515625,
      "learning_rate": 0.0001,
      "loss": 4.738,
      "loss/crossentropy": 2.4374333173036575,
      "loss/hidden": 3.728125,
      "loss/jsd": 0.10198512580245733,
      "loss/logits": 0.0,
      "step": 1720
    },
    {
      "epoch": 0.0865,
      "grad_norm": 16.625,
      "grad_norm_var": 11.1853515625,
      "learning_rate": 0.0001,
      "loss": 4.7524,
      "loss/crossentropy": 2.3030879952013494,
      "loss/hidden": 3.626953125,
      "loss/jsd": 0.09310725582763553,
      "loss/logits": 0.0,
      "step": 1730
    },
    {
      "epoch": 0.087,
      "grad_norm": 18.875,
      "grad_norm_var": 6.285416666666666,
      "learning_rate": 0.0001,
      "loss": 4.7021,
      "loss/crossentropy": 2.192840526998043,
      "loss/hidden": 3.819140625,
      "loss/jsd": 0.09320764979347587,
      "loss/logits": 0.0,
      "step": 1740
    },
    {
      "epoch": 0.0875,
      "grad_norm": 24.625,
      "grad_norm_var": 6.4353515625,
      "learning_rate": 0.0001,
      "loss": 4.7059,
      "loss/crossentropy": 2.3610597878694533,
      "loss/hidden": 3.733984375,
      "loss/jsd": 0.10029621962457895,
      "loss/logits": 0.0,
      "step": 1750
    },
    {
      "epoch": 0.088,
      "grad_norm": 19.5,
      "grad_norm_var": 19.762239583333333,
      "learning_rate": 0.0001,
      "loss": 4.7081,
      "loss/crossentropy": 2.410063475370407,
      "loss/hidden": 3.65078125,
      "loss/jsd": 0.10161215299740434,
      "loss/logits": 0.0,
      "step": 1760
    },
    {
      "epoch": 0.0885,
      "grad_norm": 33.25,
      "grad_norm_var": 22.748893229166665,
      "learning_rate": 0.0001,
      "loss": 4.5743,
      "loss/crossentropy": 2.2984881952404974,
      "loss/hidden": 3.666796875,
      "loss/jsd": 0.09647621251642705,
      "loss/logits": 0.0,
      "step": 1770
    },
    {
      "epoch": 0.089,
      "grad_norm": 20.25,
      "grad_norm_var": 16.602083333333333,
      "learning_rate": 0.0001,
      "loss": 4.7585,
      "loss/crossentropy": 2.3432783752679827,
      "loss/hidden": 3.716796875,
      "loss/jsd": 0.10081057399511337,
      "loss/logits": 0.0,
      "step": 1780
    },
    {
      "epoch": 0.0895,
      "grad_norm": 22.875,
      "grad_norm_var": 5.621875,
      "learning_rate": 0.0001,
      "loss": 4.707,
      "loss/crossentropy": 2.352738951146603,
      "loss/hidden": 3.673828125,
      "loss/jsd": 0.09183212611824274,
      "loss/logits": 0.0,
      "step": 1790
    },
    {
      "epoch": 0.09,
      "grad_norm": 33.0,
      "grad_norm_var": 16.277083333333334,
      "learning_rate": 0.0001,
      "loss": 4.6996,
      "loss/crossentropy": 2.443929785490036,
      "loss/hidden": 3.55390625,
      "loss/jsd": 0.09280467573553323,
      "loss/logits": 0.0,
      "step": 1800
    },
    {
      "epoch": 0.0905,
      "grad_norm": 17.125,
      "grad_norm_var": 20.319205729166665,
      "learning_rate": 0.0001,
      "loss": 4.7503,
      "loss/crossentropy": 2.333281812816858,
      "loss/hidden": 3.687109375,
      "loss/jsd": 0.09856429314240814,
      "loss/logits": 0.0,
      "step": 1810
    },
    {
      "epoch": 0.091,
      "grad_norm": 19.625,
      "grad_norm_var": 14.943684895833334,
      "learning_rate": 0.0001,
      "loss": 4.8011,
      "loss/crossentropy": 2.3165989741683006,
      "loss/hidden": 3.93515625,
      "loss/jsd": 0.1154123242944479,
      "loss/logits": 0.0,
      "step": 1820
    },
    {
      "epoch": 0.0915,
      "grad_norm": 19.125,
      "grad_norm_var": 2.5833333333333335,
      "learning_rate": 0.0001,
      "loss": 4.7784,
      "loss/crossentropy": 2.3343286007642745,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.11231993734836579,
      "loss/logits": 0.0,
      "step": 1830
    },
    {
      "epoch": 0.092,
      "grad_norm": 18.0,
      "grad_norm_var": 4.880989583333333,
      "learning_rate": 0.0001,
      "loss": 4.6886,
      "loss/crossentropy": 2.412258565425873,
      "loss/hidden": 3.78046875,
      "loss/jsd": 0.10415599066764117,
      "loss/logits": 0.0,
      "step": 1840
    },
    {
      "epoch": 0.0925,
      "grad_norm": 17.25,
      "grad_norm_var": 6.083072916666667,
      "learning_rate": 0.0001,
      "loss": 4.7485,
      "loss/crossentropy": 2.379472056031227,
      "loss/hidden": 3.6609375,
      "loss/jsd": 0.09712380319833755,
      "loss/logits": 0.0,
      "step": 1850
    },
    {
      "epoch": 0.093,
      "grad_norm": 19.125,
      "grad_norm_var": 9.0041015625,
      "learning_rate": 0.0001,
      "loss": 4.7145,
      "loss/crossentropy": 2.286051708459854,
      "loss/hidden": 3.671484375,
      "loss/jsd": 0.09749153861775994,
      "loss/logits": 0.0,
      "step": 1860
    },
    {
      "epoch": 0.0935,
      "grad_norm": 24.25,
      "grad_norm_var": 10.09765625,
      "learning_rate": 0.0001,
      "loss": 4.6597,
      "loss/crossentropy": 2.3485587686300278,
      "loss/hidden": 3.656640625,
      "loss/jsd": 0.09961330010555684,
      "loss/logits": 0.0,
      "step": 1870
    },
    {
      "epoch": 0.094,
      "grad_norm": 25.5,
      "grad_norm_var": 10.745833333333334,
      "learning_rate": 0.0001,
      "loss": 4.7654,
      "loss/crossentropy": 2.22419136762619,
      "loss/hidden": 3.680859375,
      "loss/jsd": 0.09599914094433189,
      "loss/logits": 0.0,
      "step": 1880
    },
    {
      "epoch": 0.0945,
      "grad_norm": 23.375,
      "grad_norm_var": 11.849739583333333,
      "learning_rate": 0.0001,
      "loss": 4.6586,
      "loss/crossentropy": 2.2319135151803495,
      "loss/hidden": 3.776953125,
      "loss/jsd": 0.1003801210783422,
      "loss/logits": 0.0,
      "step": 1890
    },
    {
      "epoch": 0.095,
      "grad_norm": 20.125,
      "grad_norm_var": 15.6884765625,
      "learning_rate": 0.0001,
      "loss": 4.7113,
      "loss/crossentropy": 2.466662494838238,
      "loss/hidden": 3.694140625,
      "loss/jsd": 0.09942078748717904,
      "loss/logits": 0.0,
      "step": 1900
    },
    {
      "epoch": 0.0955,
      "grad_norm": 20.875,
      "grad_norm_var": 11.4197265625,
      "learning_rate": 0.0001,
      "loss": 4.6638,
      "loss/crossentropy": 2.3695669680833817,
      "loss/hidden": 3.593359375,
      "loss/jsd": 0.09504008954390883,
      "loss/logits": 0.0,
      "step": 1910
    },
    {
      "epoch": 0.096,
      "grad_norm": 22.125,
      "grad_norm_var": 4.581184895833333,
      "learning_rate": 0.0001,
      "loss": 4.6473,
      "loss/crossentropy": 2.345889499783516,
      "loss/hidden": 3.691015625,
      "loss/jsd": 0.10475197089836001,
      "loss/logits": 0.0,
      "step": 1920
    },
    {
      "epoch": 0.0965,
      "grad_norm": 22.5,
      "grad_norm_var": 4.087239583333333,
      "learning_rate": 0.0001,
      "loss": 4.721,
      "loss/crossentropy": 2.256808315217495,
      "loss/hidden": 3.7015625,
      "loss/jsd": 0.09892030693590641,
      "loss/logits": 0.0,
      "step": 1930
    },
    {
      "epoch": 0.097,
      "grad_norm": 19.125,
      "grad_norm_var": 6.395572916666667,
      "learning_rate": 0.0001,
      "loss": 4.5498,
      "loss/crossentropy": 2.5429009228944777,
      "loss/hidden": 3.680859375,
      "loss/jsd": 0.09861663114279509,
      "loss/logits": 0.0,
      "step": 1940
    },
    {
      "epoch": 0.0975,
      "grad_norm": 21.25,
      "grad_norm_var": 5.843489583333334,
      "learning_rate": 0.0001,
      "loss": 4.6899,
      "loss/crossentropy": 2.272120487689972,
      "loss/hidden": 3.6375,
      "loss/jsd": 0.09743905253708363,
      "loss/logits": 0.0,
      "step": 1950
    },
    {
      "epoch": 0.098,
      "grad_norm": 17.625,
      "grad_norm_var": 6.62265625,
      "learning_rate": 0.0001,
      "loss": 4.6035,
      "loss/crossentropy": 2.1649394638836386,
      "loss/hidden": 3.584765625,
      "loss/jsd": 0.08881366224959493,
      "loss/logits": 0.0,
      "step": 1960
    },
    {
      "epoch": 0.0985,
      "grad_norm": 4328521728.0,
      "grad_norm_var": 1.171006260534208e+18,
      "learning_rate": 0.0001,
      "loss": 4.6906,
      "loss/crossentropy": 2.3182963758707045,
      "loss/hidden": 3.623046875,
      "loss/jsd": 0.10251586111262441,
      "loss/logits": 0.0,
      "step": 1970
    },
    {
      "epoch": 0.099,
      "grad_norm": 20.25,
      "grad_norm_var": 2.715501666496903e+18,
      "learning_rate": 0.0001,
      "loss": 4.7101,
      "loss/crossentropy": 2.407327815890312,
      "loss/hidden": 3.60703125,
      "loss/jsd": 0.09459855072200299,
      "loss/logits": 0.0,
      "step": 1980
    },
    {
      "epoch": 0.0995,
      "grad_norm": 19.25,
      "grad_norm_var": 1.7345191619224492e+18,
      "learning_rate": 0.0001,
      "loss": 4.6395,
      "loss/crossentropy": 2.256649875640869,
      "loss/hidden": 3.65234375,
      "loss/jsd": 0.10230031171813607,
      "loss/logits": 0.0,
      "step": 1990
    },
    {
      "epoch": 0.1,
      "grad_norm": 22.0,
      "grad_norm_var": 2.981184895833333,
      "learning_rate": 0.0001,
      "loss": 4.5112,
      "loss/crossentropy": 2.3214069336652754,
      "loss/hidden": 3.553515625,
      "loss/jsd": 0.09316142341122031,
      "loss/logits": 0.0,
      "step": 2000
    },
    {
      "epoch": 0.1005,
      "grad_norm": 20.25,
      "grad_norm_var": 4.611393229166667,
      "learning_rate": 0.0001,
      "loss": 4.5154,
      "loss/crossentropy": 2.297450725734234,
      "loss/hidden": 3.569140625,
      "loss/jsd": 0.09217815361917019,
      "loss/logits": 0.0,
      "step": 2010
    },
    {
      "epoch": 0.101,
      "grad_norm": 23.25,
      "grad_norm_var": 8.597249348958334,
      "learning_rate": 0.0001,
      "loss": 4.6108,
      "loss/crossentropy": 2.3132576078176497,
      "loss/hidden": 3.69375,
      "loss/jsd": 0.1215221800841391,
      "loss/logits": 0.0,
      "step": 2020
    },
    {
      "epoch": 0.1015,
      "grad_norm": 16.75,
      "grad_norm_var": 8.385400390625,
      "learning_rate": 0.0001,
      "loss": 4.5906,
      "loss/crossentropy": 2.42258235514164,
      "loss/hidden": 3.58359375,
      "loss/jsd": 0.09518450712785125,
      "loss/logits": 0.0,
      "step": 2030
    },
    {
      "epoch": 0.102,
      "grad_norm": 17.75,
      "grad_norm_var": 39.30416666666667,
      "learning_rate": 0.0001,
      "loss": 4.6782,
      "loss/crossentropy": 2.226282720267773,
      "loss/hidden": 3.6078125,
      "loss/jsd": 0.08297519264742732,
      "loss/logits": 0.0,
      "step": 2040
    },
    {
      "epoch": 0.1025,
      "grad_norm": 18.5,
      "grad_norm_var": 8.6306640625,
      "learning_rate": 0.0001,
      "loss": 4.6889,
      "loss/crossentropy": 2.23982213139534,
      "loss/hidden": 3.660546875,
      "loss/jsd": 0.0924127135425806,
      "loss/logits": 0.0,
      "step": 2050
    },
    {
      "epoch": 0.103,
      "grad_norm": 18.25,
      "grad_norm_var": 6.187744140625,
      "learning_rate": 0.0001,
      "loss": 4.6246,
      "loss/crossentropy": 2.2483278423547746,
      "loss/hidden": 3.60859375,
      "loss/jsd": 0.09513462502509355,
      "loss/logits": 0.0,
      "step": 2060
    },
    {
      "epoch": 0.1035,
      "grad_norm": 28.375,
      "grad_norm_var": 12.276416015625,
      "learning_rate": 0.0001,
      "loss": 4.6868,
      "loss/crossentropy": 2.2927519381046295,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.08648296073079109,
      "loss/logits": 0.0,
      "step": 2070
    },
    {
      "epoch": 0.104,
      "grad_norm": 24.125,
      "grad_norm_var": 14.239583333333334,
      "learning_rate": 0.0001,
      "loss": 4.5602,
      "loss/crossentropy": 2.3293472826480865,
      "loss/hidden": 3.599609375,
      "loss/jsd": 0.09772532721981406,
      "loss/logits": 0.0,
      "step": 2080
    },
    {
      "epoch": 0.1045,
      "grad_norm": 19.75,
      "grad_norm_var": 8.269205729166666,
      "learning_rate": 0.0001,
      "loss": 4.6017,
      "loss/crossentropy": 2.3832351714372635,
      "loss/hidden": 3.60078125,
      "loss/jsd": 0.09314336217939853,
      "loss/logits": 0.0,
      "step": 2090
    },
    {
      "epoch": 0.105,
      "grad_norm": 20.0,
      "grad_norm_var": 5.070833333333334,
      "learning_rate": 0.0001,
      "loss": 4.5706,
      "loss/crossentropy": 2.4874933838844298,
      "loss/hidden": 3.651171875,
      "loss/jsd": 0.09874060060828924,
      "loss/logits": 0.0,
      "step": 2100
    },
    {
      "epoch": 0.1055,
      "grad_norm": 16.0,
      "grad_norm_var": 42.828059895833334,
      "learning_rate": 0.0001,
      "loss": 4.6945,
      "loss/crossentropy": 2.185934893786907,
      "loss/hidden": 3.78046875,
      "loss/jsd": 0.10176362562924623,
      "loss/logits": 0.0,
      "step": 2110
    },
    {
      "epoch": 0.106,
      "grad_norm": 20.5,
      "grad_norm_var": 912.2905598958333,
      "learning_rate": 0.0001,
      "loss": 4.8579,
      "loss/crossentropy": 2.337796673178673,
      "loss/hidden": 3.673828125,
      "loss/jsd": 0.09400355285033583,
      "loss/logits": 0.0,
      "step": 2120
    },
    {
      "epoch": 0.1065,
      "grad_norm": 19.0,
      "grad_norm_var": 86.45514322916667,
      "learning_rate": 0.0001,
      "loss": 4.6905,
      "loss/crossentropy": 2.191851982474327,
      "loss/hidden": 3.83828125,
      "loss/jsd": 0.09336025016382336,
      "loss/logits": 0.0,
      "step": 2130
    },
    {
      "epoch": 0.107,
      "grad_norm": 20.625,
      "grad_norm_var": 12.3416015625,
      "learning_rate": 0.0001,
      "loss": 4.746,
      "loss/crossentropy": 2.321294938027859,
      "loss/hidden": 3.709375,
      "loss/jsd": 0.09611575696617365,
      "loss/logits": 0.0,
      "step": 2140
    },
    {
      "epoch": 0.1075,
      "grad_norm": 20.5,
      "grad_norm_var": 11.157291666666667,
      "learning_rate": 0.0001,
      "loss": 4.6848,
      "loss/crossentropy": 2.3641166269779204,
      "loss/hidden": 3.802734375,
      "loss/jsd": 0.11719204504042864,
      "loss/logits": 0.0,
      "step": 2150
    },
    {
      "epoch": 0.108,
      "grad_norm": 21.25,
      "grad_norm_var": 313.9947265625,
      "learning_rate": 0.0001,
      "loss": 4.703,
      "loss/crossentropy": 2.3178130373358727,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.10858506197109818,
      "loss/logits": 0.0,
      "step": 2160
    },
    {
      "epoch": 0.1085,
      "grad_norm": 18.125,
      "grad_norm_var": 505.7301432291667,
      "learning_rate": 0.0001,
      "loss": 4.7499,
      "loss/crossentropy": 2.2643778324127197,
      "loss/hidden": 3.686328125,
      "loss/jsd": 0.09995021363720298,
      "loss/logits": 0.0,
      "step": 2170
    },
    {
      "epoch": 0.109,
      "grad_norm": 19.0,
      "grad_norm_var": 4.88125,
      "learning_rate": 0.0001,
      "loss": 4.639,
      "loss/crossentropy": 2.333830028772354,
      "loss/hidden": 3.77421875,
      "loss/jsd": 0.10143324267119169,
      "loss/logits": 0.0,
      "step": 2180
    },
    {
      "epoch": 0.1095,
      "grad_norm": 17.625,
      "grad_norm_var": 1.756685316214961e+18,
      "learning_rate": 0.0001,
      "loss": 4.6091,
      "loss/crossentropy": 2.2005941957235335,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.08694255957379937,
      "loss/logits": 0.0,
      "step": 2190
    },
    {
      "epoch": 0.11,
      "grad_norm": 19.25,
      "grad_norm_var": 219.81608072916666,
      "learning_rate": 0.0001,
      "loss": 4.6177,
      "loss/crossentropy": 2.3627296075224877,
      "loss/hidden": 3.74765625,
      "loss/jsd": 0.10458627291955054,
      "loss/logits": 0.0,
      "step": 2200
    },
    {
      "epoch": 0.1105,
      "grad_norm": 23.25,
      "grad_norm_var": 130.35305989583333,
      "learning_rate": 0.0001,
      "loss": 4.6516,
      "loss/crossentropy": 2.4541628479957582,
      "loss/hidden": 3.723046875,
      "loss/jsd": 0.09181494554504752,
      "loss/logits": 0.0,
      "step": 2210
    },
    {
      "epoch": 0.111,
      "grad_norm": 20.5,
      "grad_norm_var": 130.06015625,
      "learning_rate": 0.0001,
      "loss": 4.69,
      "loss/crossentropy": 2.416627970337868,
      "loss/hidden": 3.734765625,
      "loss/jsd": 0.11581595735624432,
      "loss/logits": 0.0,
      "step": 2220
    },
    {
      "epoch": 0.1115,
      "grad_norm": 18.625,
      "grad_norm_var": 5.193473307291667,
      "learning_rate": 0.0001,
      "loss": 4.685,
      "loss/crossentropy": 2.3696270257234575,
      "loss/hidden": 3.592578125,
      "loss/jsd": 0.09627662082202733,
      "loss/logits": 0.0,
      "step": 2230
    },
    {
      "epoch": 0.112,
      "grad_norm": 17.875,
      "grad_norm_var": 3.7067057291666665,
      "learning_rate": 0.0001,
      "loss": 4.6807,
      "loss/crossentropy": 2.374240705370903,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.10023370888084174,
      "loss/logits": 0.0,
      "step": 2240
    },
    {
      "epoch": 0.1125,
      "grad_norm": 18.875,
      "grad_norm_var": 6.2431640625,
      "learning_rate": 0.0001,
      "loss": 4.6202,
      "loss/crossentropy": 2.39550845772028,
      "loss/hidden": 3.655078125,
      "loss/jsd": 0.10500529641285539,
      "loss/logits": 0.0,
      "step": 2250
    },
    {
      "epoch": 0.113,
      "grad_norm": 16.75,
      "grad_norm_var": 5.78125,
      "learning_rate": 0.0001,
      "loss": 4.6473,
      "loss/crossentropy": 2.3785043194890023,
      "loss/hidden": 3.659375,
      "loss/jsd": 0.09861900489777327,
      "loss/logits": 0.0,
      "step": 2260
    },
    {
      "epoch": 0.1135,
      "grad_norm": 20.25,
      "grad_norm_var": 5.677018229166666,
      "learning_rate": 0.0001,
      "loss": 4.5771,
      "loss/crossentropy": 2.4541394472122193,
      "loss/hidden": 3.692578125,
      "loss/jsd": 0.10195111334323884,
      "loss/logits": 0.0,
      "step": 2270
    },
    {
      "epoch": 0.114,
      "grad_norm": 21.25,
      "grad_norm_var": 7.0228515625,
      "learning_rate": 0.0001,
      "loss": 4.597,
      "loss/crossentropy": 2.3176154881715774,
      "loss/hidden": 3.583984375,
      "loss/jsd": 0.09049384696409106,
      "loss/logits": 0.0,
      "step": 2280
    },
    {
      "epoch": 0.1145,
      "grad_norm": 15.75,
      "grad_norm_var": 15.241520182291667,
      "learning_rate": 0.0001,
      "loss": 4.5624,
      "loss/crossentropy": 2.5178518027067183,
      "loss/hidden": 3.528125,
      "loss/jsd": 0.09066717140376568,
      "loss/logits": 0.0,
      "step": 2290
    },
    {
      "epoch": 0.115,
      "grad_norm": 17.625,
      "grad_norm_var": 7.566520182291667,
      "learning_rate": 0.0001,
      "loss": 4.5471,
      "loss/crossentropy": 2.3759778410196306,
      "loss/hidden": 3.553125,
      "loss/jsd": 0.09599322909489275,
      "loss/logits": 0.0,
      "step": 2300
    },
    {
      "epoch": 0.1155,
      "grad_norm": 20.0,
      "grad_norm_var": 8.312434895833333,
      "learning_rate": 0.0001,
      "loss": 4.5075,
      "loss/crossentropy": 2.3496225073933603,
      "loss/hidden": 3.606640625,
      "loss/jsd": 0.09744280204176903,
      "loss/logits": 0.0,
      "step": 2310
    },
    {
      "epoch": 0.116,
      "grad_norm": 19.75,
      "grad_norm_var": 3.2108723958333334,
      "learning_rate": 0.0001,
      "loss": 4.5475,
      "loss/crossentropy": 2.4485339492559435,
      "loss/hidden": 3.523046875,
      "loss/jsd": 0.0890957485884428,
      "loss/logits": 0.0,
      "step": 2320
    },
    {
      "epoch": 0.1165,
      "grad_norm": 19.0,
      "grad_norm_var": 2.364697265625,
      "learning_rate": 0.0001,
      "loss": 4.5781,
      "loss/crossentropy": 2.299929490685463,
      "loss/hidden": 3.598828125,
      "loss/jsd": 0.09711863240227103,
      "loss/logits": 0.0,
      "step": 2330
    },
    {
      "epoch": 0.117,
      "grad_norm": 17.75,
      "grad_norm_var": 1.4955729166666667,
      "learning_rate": 0.0001,
      "loss": 4.5392,
      "loss/crossentropy": 2.298077051341534,
      "loss/hidden": 3.61015625,
      "loss/jsd": 0.0896261626854539,
      "loss/logits": 0.0,
      "step": 2340
    },
    {
      "epoch": 0.1175,
      "grad_norm": 17.5,
      "grad_norm_var": 3.0098307291666666,
      "learning_rate": 0.0001,
      "loss": 4.5949,
      "loss/crossentropy": 2.2876608431339265,
      "loss/hidden": 3.757421875,
      "loss/jsd": 0.10631331414915621,
      "loss/logits": 0.0,
      "step": 2350
    },
    {
      "epoch": 0.118,
      "grad_norm": 21.875,
      "grad_norm_var": 6.657291666666667,
      "learning_rate": 0.0001,
      "loss": 4.6054,
      "loss/crossentropy": 2.589036238193512,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.09777994276955723,
      "loss/logits": 0.0,
      "step": 2360
    },
    {
      "epoch": 0.1185,
      "grad_norm": 19.5,
      "grad_norm_var": 4.276497395833333,
      "learning_rate": 0.0001,
      "loss": 4.6578,
      "loss/crossentropy": 2.4440223038196565,
      "loss/hidden": 3.63125,
      "loss/jsd": 0.10012138104066252,
      "loss/logits": 0.0,
      "step": 2370
    },
    {
      "epoch": 0.119,
      "grad_norm": 15.9375,
      "grad_norm_var": 6.341520182291666,
      "learning_rate": 0.0001,
      "loss": 4.6382,
      "loss/crossentropy": 2.3379690438508987,
      "loss/hidden": 3.73046875,
      "loss/jsd": 0.10282904924824834,
      "loss/logits": 0.0,
      "step": 2380
    },
    {
      "epoch": 0.1195,
      "grad_norm": 20.5,
      "grad_norm_var": 7.068733723958333,
      "learning_rate": 0.0001,
      "loss": 4.5986,
      "loss/crossentropy": 2.358085313439369,
      "loss/hidden": 3.59140625,
      "loss/jsd": 0.0954778247512877,
      "loss/logits": 0.0,
      "step": 2390
    },
    {
      "epoch": 0.12,
      "grad_norm": 18.125,
      "grad_norm_var": 4.709375,
      "learning_rate": 0.0001,
      "loss": 4.5411,
      "loss/crossentropy": 2.262301415205002,
      "loss/hidden": 3.6265625,
      "loss/jsd": 0.09096273891627789,
      "loss/logits": 0.0,
      "step": 2400
    },
    {
      "epoch": 0.1205,
      "grad_norm": 21.125,
      "grad_norm_var": 2.4447916666666667,
      "learning_rate": 0.0001,
      "loss": 4.5437,
      "loss/crossentropy": 2.493518462777138,
      "loss/hidden": 3.61953125,
      "loss/jsd": 0.08979002349078655,
      "loss/logits": 0.0,
      "step": 2410
    },
    {
      "epoch": 0.121,
      "grad_norm": 16.75,
      "grad_norm_var": 6.323958333333334,
      "learning_rate": 0.0001,
      "loss": 4.563,
      "loss/crossentropy": 2.4933597564697267,
      "loss/hidden": 3.592578125,
      "loss/jsd": 0.09690459789708257,
      "loss/logits": 0.0,
      "step": 2420
    },
    {
      "epoch": 0.1215,
      "grad_norm": 18.875,
      "grad_norm_var": 6.918489583333334,
      "learning_rate": 0.0001,
      "loss": 4.5351,
      "loss/crossentropy": 2.516791993379593,
      "loss/hidden": 3.598828125,
      "loss/jsd": 0.09446065053343773,
      "loss/logits": 0.0,
      "step": 2430
    },
    {
      "epoch": 0.122,
      "grad_norm": 19.375,
      "grad_norm_var": 5.448942057291666,
      "learning_rate": 0.0001,
      "loss": 4.5509,
      "loss/crossentropy": 2.2249866664409637,
      "loss/hidden": 3.53203125,
      "loss/jsd": 0.08729059183970093,
      "loss/logits": 0.0,
      "step": 2440
    },
    {
      "epoch": 0.1225,
      "grad_norm": 19.25,
      "grad_norm_var": 5.459228515625,
      "learning_rate": 0.0001,
      "loss": 4.5135,
      "loss/crossentropy": 2.2651902705430986,
      "loss/hidden": 3.54765625,
      "loss/jsd": 0.08877531317993999,
      "loss/logits": 0.0,
      "step": 2450
    },
    {
      "epoch": 0.123,
      "grad_norm": 18.375,
      "grad_norm_var": 2.688004557291667,
      "learning_rate": 0.0001,
      "loss": 4.4698,
      "loss/crossentropy": 2.2470821171998976,
      "loss/hidden": 3.562890625,
      "loss/jsd": 0.09754009852185845,
      "loss/logits": 0.0,
      "step": 2460
    },
    {
      "epoch": 0.1235,
      "grad_norm": 20.0,
      "grad_norm_var": 4.591910807291667,
      "learning_rate": 0.0001,
      "loss": 4.5083,
      "loss/crossentropy": 2.1959333077073095,
      "loss/hidden": 3.531640625,
      "loss/jsd": 0.0921278445981443,
      "loss/logits": 0.0,
      "step": 2470
    },
    {
      "epoch": 0.124,
      "grad_norm": 19.0,
      "grad_norm_var": 3.9395182291666666,
      "learning_rate": 0.0001,
      "loss": 4.5378,
      "loss/crossentropy": 2.2659239649772642,
      "loss/hidden": 3.5875,
      "loss/jsd": 0.09199469089508057,
      "loss/logits": 0.0,
      "step": 2480
    },
    {
      "epoch": 0.1245,
      "grad_norm": 18.375,
      "grad_norm_var": 2.9302083333333333,
      "learning_rate": 0.0001,
      "loss": 4.4709,
      "loss/crossentropy": 2.2354795530438425,
      "loss/hidden": 3.49140625,
      "loss/jsd": 0.08955592634156347,
      "loss/logits": 0.0,
      "step": 2490
    },
    {
      "epoch": 0.125,
      "grad_norm": 21.75,
      "grad_norm_var": 3.544791666666667,
      "learning_rate": 0.0001,
      "loss": 4.546,
      "loss/crossentropy": 2.321756035089493,
      "loss/hidden": 3.491796875,
      "loss/jsd": 0.08398934034630656,
      "loss/logits": 0.0,
      "step": 2500
    },
    {
      "epoch": 0.1255,
      "grad_norm": 20.375,
      "grad_norm_var": 3.5992024739583335,
      "learning_rate": 0.0001,
      "loss": 4.5442,
      "loss/crossentropy": 2.327367161214352,
      "loss/hidden": 3.562109375,
      "loss/jsd": 0.08928178530186415,
      "loss/logits": 0.0,
      "step": 2510
    },
    {
      "epoch": 0.126,
      "grad_norm": 18.875,
      "grad_norm_var": 3.892041015625,
      "learning_rate": 0.0001,
      "loss": 4.4942,
      "loss/crossentropy": 2.198644478619099,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.08295171349309385,
      "loss/logits": 0.0,
      "step": 2520
    },
    {
      "epoch": 0.1265,
      "grad_norm": 16.125,
      "grad_norm_var": 5.773811848958333,
      "learning_rate": 0.0001,
      "loss": 4.576,
      "loss/crossentropy": 2.472541335225105,
      "loss/hidden": 3.597265625,
      "loss/jsd": 0.10432412773370743,
      "loss/logits": 0.0,
      "step": 2530
    },
    {
      "epoch": 0.127,
      "grad_norm": 20.875,
      "grad_norm_var": 5.364583333333333,
      "learning_rate": 0.0001,
      "loss": 4.5337,
      "loss/crossentropy": 2.3647551596164704,
      "loss/hidden": 3.618359375,
      "loss/jsd": 0.10374335153028369,
      "loss/logits": 0.0,
      "step": 2540
    },
    {
      "epoch": 0.1275,
      "grad_norm": 37.25,
      "grad_norm_var": 1281.695947265625,
      "learning_rate": 0.0001,
      "loss": 4.5825,
      "loss/crossentropy": 2.2414861261844634,
      "loss/hidden": 3.4828125,
      "loss/jsd": 0.09403842501342297,
      "loss/logits": 0.0,
      "step": 2550
    },
    {
      "epoch": 0.128,
      "grad_norm": 14.875,
      "grad_norm_var": 1240.8051432291666,
      "learning_rate": 0.0001,
      "loss": 4.4589,
      "loss/crossentropy": 2.234823814034462,
      "loss/hidden": 3.509765625,
      "loss/jsd": 0.08673453908413649,
      "loss/logits": 0.0,
      "step": 2560
    },
    {
      "epoch": 0.1285,
      "grad_norm": 22.75,
      "grad_norm_var": 16.616080729166665,
      "learning_rate": 0.0001,
      "loss": 4.4816,
      "loss/crossentropy": 2.387620323896408,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.08936102241277695,
      "loss/logits": 0.0,
      "step": 2570
    },
    {
      "epoch": 0.129,
      "grad_norm": 16.125,
      "grad_norm_var": 9.396809895833334,
      "learning_rate": 0.0001,
      "loss": 4.4124,
      "loss/crossentropy": 2.1731797240674497,
      "loss/hidden": 3.40390625,
      "loss/jsd": 0.07968775480985642,
      "loss/logits": 0.0,
      "step": 2580
    },
    {
      "epoch": 0.1295,
      "grad_norm": 20.625,
      "grad_norm_var": 8.490559895833334,
      "learning_rate": 0.0001,
      "loss": 4.4807,
      "loss/crossentropy": 2.1817662701010705,
      "loss/hidden": 3.676953125,
      "loss/jsd": 0.09472927646711468,
      "loss/logits": 0.0,
      "step": 2590
    },
    {
      "epoch": 0.13,
      "grad_norm": 21.375,
      "grad_norm_var": 4.510416666666667,
      "learning_rate": 0.0001,
      "loss": 4.5324,
      "loss/crossentropy": 2.2697513103485107,
      "loss/hidden": 3.570703125,
      "loss/jsd": 0.08940641283988952,
      "loss/logits": 0.0,
      "step": 2600
    },
    {
      "epoch": 0.1305,
      "grad_norm": 18.375,
      "grad_norm_var": 9.0634765625,
      "learning_rate": 0.0001,
      "loss": 4.4845,
      "loss/crossentropy": 2.2707223266363146,
      "loss/hidden": 3.52109375,
      "loss/jsd": 0.09460832485929131,
      "loss/logits": 0.0,
      "step": 2610
    },
    {
      "epoch": 0.131,
      "grad_norm": 66.0,
      "grad_norm_var": 143.3619140625,
      "learning_rate": 0.0001,
      "loss": 4.5179,
      "loss/crossentropy": 2.254822887480259,
      "loss/hidden": 3.531640625,
      "loss/jsd": 0.09221142884343862,
      "loss/logits": 0.0,
      "step": 2620
    },
    {
      "epoch": 0.1315,
      "grad_norm": 21.625,
      "grad_norm_var": 143.6431640625,
      "learning_rate": 0.0001,
      "loss": 4.4947,
      "loss/crossentropy": 2.347915455698967,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.09412752091884613,
      "loss/logits": 0.0,
      "step": 2630
    },
    {
      "epoch": 0.132,
      "grad_norm": 17.375,
      "grad_norm_var": 3.1708333333333334,
      "learning_rate": 0.0001,
      "loss": 4.528,
      "loss/crossentropy": 2.2751280948519708,
      "loss/hidden": 3.56328125,
      "loss/jsd": 0.08851864533498884,
      "loss/logits": 0.0,
      "step": 2640
    },
    {
      "epoch": 0.1325,
      "grad_norm": 19.0,
      "grad_norm_var": 13.576155598958334,
      "learning_rate": 0.0001,
      "loss": 4.4741,
      "loss/crossentropy": 2.2658936589956284,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.08702889690175653,
      "loss/logits": 0.0,
      "step": 2650
    },
    {
      "epoch": 0.133,
      "grad_norm": 21.625,
      "grad_norm_var": 722.3559895833333,
      "learning_rate": 0.0001,
      "loss": 4.5137,
      "loss/crossentropy": 2.1781817600131035,
      "loss/hidden": 3.56484375,
      "loss/jsd": 0.09932177630253136,
      "loss/logits": 0.0,
      "step": 2660
    },
    {
      "epoch": 0.1335,
      "grad_norm": 17.5,
      "grad_norm_var": 2.5122395833333333,
      "learning_rate": 0.0001,
      "loss": 4.4842,
      "loss/crossentropy": 2.3243243932724,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.09606684306636452,
      "loss/logits": 0.0,
      "step": 2670
    },
    {
      "epoch": 0.134,
      "grad_norm": 16.75,
      "grad_norm_var": 38.6853515625,
      "learning_rate": 0.0001,
      "loss": 4.5164,
      "loss/crossentropy": 2.389857916533947,
      "loss/hidden": 3.610546875,
      "loss/jsd": 0.09261430930346251,
      "loss/logits": 0.0,
      "step": 2680
    },
    {
      "epoch": 0.1345,
      "grad_norm": 19.25,
      "grad_norm_var": 4.7369140625,
      "learning_rate": 0.0001,
      "loss": 4.4902,
      "loss/crossentropy": 2.3873065978288652,
      "loss/hidden": 3.496875,
      "loss/jsd": 0.08840383114293218,
      "loss/logits": 0.0,
      "step": 2690
    },
    {
      "epoch": 0.135,
      "grad_norm": 20.5,
      "grad_norm_var": 3.177018229166667,
      "learning_rate": 0.0001,
      "loss": 4.4057,
      "loss/crossentropy": 2.338147234916687,
      "loss/hidden": 3.534375,
      "loss/jsd": 0.09641889259219169,
      "loss/logits": 0.0,
      "step": 2700
    },
    {
      "epoch": 0.1355,
      "grad_norm": 17.75,
      "grad_norm_var": 8.540999348958334,
      "learning_rate": 0.0001,
      "loss": 4.513,
      "loss/crossentropy": 2.2362188696861267,
      "loss/hidden": 3.6625,
      "loss/jsd": 0.10190682755783201,
      "loss/logits": 0.0,
      "step": 2710
    },
    {
      "epoch": 0.136,
      "grad_norm": 22.75,
      "grad_norm_var": 38.66183268229167,
      "learning_rate": 0.0001,
      "loss": 4.6171,
      "loss/crossentropy": 2.222167354822159,
      "loss/hidden": 3.628125,
      "loss/jsd": 0.11221090480685234,
      "loss/logits": 0.0,
      "step": 2720
    },
    {
      "epoch": 0.1365,
      "grad_norm": 16.375,
      "grad_norm_var": 37.61015625,
      "learning_rate": 0.0001,
      "loss": 4.539,
      "loss/crossentropy": 2.3914648950099946,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.09164496380835771,
      "loss/logits": 0.0,
      "step": 2730
    },
    {
      "epoch": 0.137,
      "grad_norm": 16.5,
      "grad_norm_var": 2.32890625,
      "learning_rate": 0.0001,
      "loss": 4.6123,
      "loss/crossentropy": 2.385912075638771,
      "loss/hidden": 3.541796875,
      "loss/jsd": 0.08835116708651185,
      "loss/logits": 0.0,
      "step": 2740
    },
    {
      "epoch": 0.1375,
      "grad_norm": 17.75,
      "grad_norm_var": 6.953125,
      "learning_rate": 0.0001,
      "loss": 4.5453,
      "loss/crossentropy": 2.291456125676632,
      "loss/hidden": 3.590625,
      "loss/jsd": 0.0944554246030748,
      "loss/logits": 0.0,
      "step": 2750
    },
    {
      "epoch": 0.138,
      "grad_norm": 18.875,
      "grad_norm_var": 23.817643229166666,
      "learning_rate": 0.0001,
      "loss": 4.4631,
      "loss/crossentropy": 2.2219670079648495,
      "loss/hidden": 3.562890625,
      "loss/jsd": 0.08628002055920661,
      "loss/logits": 0.0,
      "step": 2760
    },
    {
      "epoch": 0.1385,
      "grad_norm": 17.5,
      "grad_norm_var": 22.864518229166666,
      "learning_rate": 0.0001,
      "loss": 4.4415,
      "loss/crossentropy": 2.3799121528863907,
      "loss/hidden": 3.5,
      "loss/jsd": 0.09274168154224753,
      "loss/logits": 0.0,
      "step": 2770
    },
    {
      "epoch": 0.139,
      "grad_norm": 20.25,
      "grad_norm_var": 6.460791015625,
      "learning_rate": 0.0001,
      "loss": 4.5309,
      "loss/crossentropy": 2.1055190823972225,
      "loss/hidden": 3.534765625,
      "loss/jsd": 0.08359876750037074,
      "loss/logits": 0.0,
      "step": 2780
    },
    {
      "epoch": 0.1395,
      "grad_norm": 17.875,
      "grad_norm_var": 5.627587890625,
      "learning_rate": 0.0001,
      "loss": 4.4825,
      "loss/crossentropy": 2.3334684520959854,
      "loss/hidden": 3.533984375,
      "loss/jsd": 0.0967961790971458,
      "loss/logits": 0.0,
      "step": 2790
    },
    {
      "epoch": 0.14,
      "grad_norm": 17.125,
      "grad_norm_var": 4.620556640625,
      "learning_rate": 0.0001,
      "loss": 4.4282,
      "loss/crossentropy": 2.42918943464756,
      "loss/hidden": 3.526953125,
      "loss/jsd": 0.08855977468192577,
      "loss/logits": 0.0,
      "step": 2800
    },
    {
      "epoch": 0.1405,
      "grad_norm": 18.5,
      "grad_norm_var": 5.042643229166667,
      "learning_rate": 0.0001,
      "loss": 4.4503,
      "loss/crossentropy": 2.272622914612293,
      "loss/hidden": 3.58671875,
      "loss/jsd": 0.0873057721182704,
      "loss/logits": 0.0,
      "step": 2810
    },
    {
      "epoch": 0.141,
      "grad_norm": 18.125,
      "grad_norm_var": 3.658837890625,
      "learning_rate": 0.0001,
      "loss": 4.4984,
      "loss/crossentropy": 2.1938667565584185,
      "loss/hidden": 3.553515625,
      "loss/jsd": 0.08576443083584309,
      "loss/logits": 0.0,
      "step": 2820
    },
    {
      "epoch": 0.1415,
      "grad_norm": 20.375,
      "grad_norm_var": 3.8306640625,
      "learning_rate": 0.0001,
      "loss": 4.5033,
      "loss/crossentropy": 2.3123946458101274,
      "loss/hidden": 3.56171875,
      "loss/jsd": 0.0924573240801692,
      "loss/logits": 0.0,
      "step": 2830
    },
    {
      "epoch": 0.142,
      "grad_norm": 22.75,
      "grad_norm_var": 5.495768229166667,
      "learning_rate": 0.0001,
      "loss": 4.4168,
      "loss/crossentropy": 2.3987593173980715,
      "loss/hidden": 3.509765625,
      "loss/jsd": 0.0879776468500495,
      "loss/logits": 0.0,
      "step": 2840
    },
    {
      "epoch": 0.1425,
      "grad_norm": 17.375,
      "grad_norm_var": 9.082747395833334,
      "learning_rate": 0.0001,
      "loss": 4.4669,
      "loss/crossentropy": 2.2637423157691954,
      "loss/hidden": 3.5609375,
      "loss/jsd": 0.10491609480232,
      "loss/logits": 0.0,
      "step": 2850
    },
    {
      "epoch": 0.143,
      "grad_norm": 16.625,
      "grad_norm_var": 5.2478515625,
      "learning_rate": 0.0001,
      "loss": 4.3874,
      "loss/crossentropy": 2.36127190887928,
      "loss/hidden": 3.5421875,
      "loss/jsd": 0.08668355047702789,
      "loss/logits": 0.0,
      "step": 2860
    },
    {
      "epoch": 0.1435,
      "grad_norm": 20.625,
      "grad_norm_var": 7.6447265625,
      "learning_rate": 0.0001,
      "loss": 4.4512,
      "loss/crossentropy": 2.4082365155220034,
      "loss/hidden": 3.561328125,
      "loss/jsd": 0.09474811758846044,
      "loss/logits": 0.0,
      "step": 2870
    },
    {
      "epoch": 0.144,
      "grad_norm": 21.125,
      "grad_norm_var": 8.8734375,
      "learning_rate": 0.0001,
      "loss": 4.4895,
      "loss/crossentropy": 2.2012635439634325,
      "loss/hidden": 3.4703125,
      "loss/jsd": 0.08498403234407306,
      "loss/logits": 0.0,
      "step": 2880
    },
    {
      "epoch": 0.1445,
      "grad_norm": 21.625,
      "grad_norm_var": 3.4480305989583333,
      "learning_rate": 0.0001,
      "loss": 4.447,
      "loss/crossentropy": 2.298944839835167,
      "loss/hidden": 3.555078125,
      "loss/jsd": 0.09882149025797844,
      "loss/logits": 0.0,
      "step": 2890
    },
    {
      "epoch": 0.145,
      "grad_norm": 16.75,
      "grad_norm_var": 2.8893229166666665,
      "learning_rate": 0.0001,
      "loss": 4.5259,
      "loss/crossentropy": 2.4170736342668535,
      "loss/hidden": 3.62265625,
      "loss/jsd": 0.10080426596105099,
      "loss/logits": 0.0,
      "step": 2900
    },
    {
      "epoch": 0.1455,
      "grad_norm": 24.75,
      "grad_norm_var": 9.176041666666666,
      "learning_rate": 0.0001,
      "loss": 4.4133,
      "loss/crossentropy": 2.266545096039772,
      "loss/hidden": 3.488671875,
      "loss/jsd": 0.08616750100627542,
      "loss/logits": 0.0,
      "step": 2910
    },
    {
      "epoch": 0.146,
      "grad_norm": 23.5,
      "grad_norm_var": 10.60859375,
      "learning_rate": 0.0001,
      "loss": 4.4536,
      "loss/crossentropy": 2.3165148913860323,
      "loss/hidden": 3.42890625,
      "loss/jsd": 0.07857409287244081,
      "loss/logits": 0.0,
      "step": 2920
    },
    {
      "epoch": 0.1465,
      "grad_norm": 18.125,
      "grad_norm_var": 4.756884765625,
      "learning_rate": 0.0001,
      "loss": 4.4494,
      "loss/crossentropy": 2.275170993804932,
      "loss/hidden": 3.52421875,
      "loss/jsd": 0.08944948101416231,
      "loss/logits": 0.0,
      "step": 2930
    },
    {
      "epoch": 0.147,
      "grad_norm": 19.375,
      "grad_norm_var": 4.254931640625,
      "learning_rate": 0.0001,
      "loss": 4.4176,
      "loss/crossentropy": 2.0632098406553268,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.09174134442582726,
      "loss/logits": 0.0,
      "step": 2940
    },
    {
      "epoch": 0.1475,
      "grad_norm": 20.75,
      "grad_norm_var": 3.086442057291667,
      "learning_rate": 0.0001,
      "loss": 4.4606,
      "loss/crossentropy": 2.251816061139107,
      "loss/hidden": 3.43046875,
      "loss/jsd": 0.08638259647414089,
      "loss/logits": 0.0,
      "step": 2950
    },
    {
      "epoch": 0.148,
      "grad_norm": 44.75,
      "grad_norm_var": 49.42265625,
      "learning_rate": 0.0001,
      "loss": 4.4651,
      "loss/crossentropy": 2.1415898591279983,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.08234252617694438,
      "loss/logits": 0.0,
      "step": 2960
    },
    {
      "epoch": 0.1485,
      "grad_norm": 21.0,
      "grad_norm_var": 47.44993489583333,
      "learning_rate": 0.0001,
      "loss": 4.4563,
      "loss/crossentropy": 2.2365823119878767,
      "loss/hidden": 3.542578125,
      "loss/jsd": 0.09432788556441665,
      "loss/logits": 0.0,
      "step": 2970
    },
    {
      "epoch": 0.149,
      "grad_norm": 16.875,
      "grad_norm_var": 3.926155598958333,
      "learning_rate": 0.0001,
      "loss": 4.4151,
      "loss/crossentropy": 2.397647699713707,
      "loss/hidden": 3.58984375,
      "loss/jsd": 0.09230242855846882,
      "loss/logits": 0.0,
      "step": 2980
    },
    {
      "epoch": 0.1495,
      "grad_norm": 18.25,
      "grad_norm_var": 2.0455729166666665,
      "learning_rate": 0.0001,
      "loss": 4.4923,
      "loss/crossentropy": 2.270119884610176,
      "loss/hidden": 3.588671875,
      "loss/jsd": 0.09977766564115882,
      "loss/logits": 0.0,
      "step": 2990
    },
    {
      "epoch": 0.15,
      "grad_norm": 20.875,
      "grad_norm_var": 5.620947265625,
      "learning_rate": 0.0001,
      "loss": 4.424,
      "loss/crossentropy": 2.274160121381283,
      "loss/hidden": 3.493359375,
      "loss/jsd": 0.08368044728413224,
      "loss/logits": 0.0,
      "step": 3000
    },
    {
      "epoch": 0.1505,
      "grad_norm": 18.0,
      "grad_norm_var": 5.805843098958333,
      "learning_rate": 0.0001,
      "loss": 4.4366,
      "loss/crossentropy": 2.2047403126955034,
      "loss/hidden": 3.48125,
      "loss/jsd": 0.09485792317427695,
      "loss/logits": 0.0,
      "step": 3010
    },
    {
      "epoch": 0.151,
      "grad_norm": 15.75,
      "grad_norm_var": 3.952018229166667,
      "learning_rate": 0.0001,
      "loss": 4.4361,
      "loss/crossentropy": 2.426369333267212,
      "loss/hidden": 3.505078125,
      "loss/jsd": 0.09415734186768532,
      "loss/logits": 0.0,
      "step": 3020
    },
    {
      "epoch": 0.1515,
      "grad_norm": 20.5,
      "grad_norm_var": 27.647916666666667,
      "learning_rate": 0.0001,
      "loss": 4.386,
      "loss/crossentropy": 2.1474297270178795,
      "loss/hidden": 3.485546875,
      "loss/jsd": 0.08619686132296919,
      "loss/logits": 0.0,
      "step": 3030
    },
    {
      "epoch": 0.152,
      "grad_norm": 18.125,
      "grad_norm_var": 7.828369140625,
      "learning_rate": 0.0001,
      "loss": 4.5285,
      "loss/crossentropy": 2.343987912684679,
      "loss/hidden": 3.58515625,
      "loss/jsd": 0.09171235403046012,
      "loss/logits": 0.0,
      "step": 3040
    },
    {
      "epoch": 0.1525,
      "grad_norm": 18.25,
      "grad_norm_var": 8.158707682291666,
      "learning_rate": 0.0001,
      "loss": 4.4394,
      "loss/crossentropy": 2.3131785288453104,
      "loss/hidden": 3.59453125,
      "loss/jsd": 0.09000935666263103,
      "loss/logits": 0.0,
      "step": 3050
    },
    {
      "epoch": 0.153,
      "grad_norm": 37.0,
      "grad_norm_var": 68.850244140625,
      "learning_rate": 0.0001,
      "loss": 4.4266,
      "loss/crossentropy": 2.333009423315525,
      "loss/hidden": 3.5515625,
      "loss/jsd": 0.10508564142510295,
      "loss/logits": 0.0,
      "step": 3060
    },
    {
      "epoch": 0.1535,
      "grad_norm": 18.75,
      "grad_norm_var": 69.41712239583333,
      "learning_rate": 0.0001,
      "loss": 4.4924,
      "loss/crossentropy": 2.3548025131225585,
      "loss/hidden": 3.560546875,
      "loss/jsd": 0.08788978308439255,
      "loss/logits": 0.0,
      "step": 3070
    },
    {
      "epoch": 0.154,
      "grad_norm": 19.125,
      "grad_norm_var": 2.856494140625,
      "learning_rate": 0.0001,
      "loss": 4.4327,
      "loss/crossentropy": 2.196867881715298,
      "loss/hidden": 3.598046875,
      "loss/jsd": 0.09646046198904515,
      "loss/logits": 0.0,
      "step": 3080
    },
    {
      "epoch": 0.1545,
      "grad_norm": 22.375,
      "grad_norm_var": 3.7356770833333335,
      "learning_rate": 0.0001,
      "loss": 4.4178,
      "loss/crossentropy": 2.2703019440174104,
      "loss/hidden": 3.5359375,
      "loss/jsd": 0.09918619338423014,
      "loss/logits": 0.0,
      "step": 3090
    },
    {
      "epoch": 0.155,
      "grad_norm": 21.5,
      "grad_norm_var": 10.3275390625,
      "learning_rate": 0.0001,
      "loss": 4.3676,
      "loss/crossentropy": 2.2433530882000925,
      "loss/hidden": 3.416015625,
      "loss/jsd": 0.08071139380335808,
      "loss/logits": 0.0,
      "step": 3100
    },
    {
      "epoch": 0.1555,
      "grad_norm": 18.5,
      "grad_norm_var": 10.381510416666666,
      "learning_rate": 0.0001,
      "loss": 4.3876,
      "loss/crossentropy": 2.229444594681263,
      "loss/hidden": 3.46640625,
      "loss/jsd": 0.08576273424550891,
      "loss/logits": 0.0,
      "step": 3110
    },
    {
      "epoch": 0.156,
      "grad_norm": 15.6875,
      "grad_norm_var": 4.5712890625,
      "learning_rate": 0.0001,
      "loss": 4.345,
      "loss/crossentropy": 2.2901594534516336,
      "loss/hidden": 3.35859375,
      "loss/jsd": 0.07994853192940354,
      "loss/logits": 0.0,
      "step": 3120
    },
    {
      "epoch": 0.1565,
      "grad_norm": 15.625,
      "grad_norm_var": 7.159358723958333,
      "learning_rate": 0.0001,
      "loss": 4.3626,
      "loss/crossentropy": 2.351148310303688,
      "loss/hidden": 3.499609375,
      "loss/jsd": 0.089451711345464,
      "loss/logits": 0.0,
      "step": 3130
    },
    {
      "epoch": 0.157,
      "grad_norm": 16.375,
      "grad_norm_var": 6.505192057291667,
      "learning_rate": 0.0001,
      "loss": 4.4232,
      "loss/crossentropy": 2.1818712055683136,
      "loss/hidden": 3.45234375,
      "loss/jsd": 0.0778524660039693,
      "loss/logits": 0.0,
      "step": 3140
    },
    {
      "epoch": 0.1575,
      "grad_norm": 16.75,
      "grad_norm_var": 2.1102701822916665,
      "learning_rate": 0.0001,
      "loss": 4.4401,
      "loss/crossentropy": 2.349280393123627,
      "loss/hidden": 3.570703125,
      "loss/jsd": 0.09622437562793493,
      "loss/logits": 0.0,
      "step": 3150
    },
    {
      "epoch": 0.158,
      "grad_norm": 17.625,
      "grad_norm_var": 2.701546223958333,
      "learning_rate": 0.0001,
      "loss": 4.3796,
      "loss/crossentropy": 2.329416874051094,
      "loss/hidden": 3.539453125,
      "loss/jsd": 0.08784733964130283,
      "loss/logits": 0.0,
      "step": 3160
    },
    {
      "epoch": 0.1585,
      "grad_norm": 16.375,
      "grad_norm_var": 2.156363932291667,
      "learning_rate": 0.0001,
      "loss": 4.2973,
      "loss/crossentropy": 2.2838528990745544,
      "loss/hidden": 3.38984375,
      "loss/jsd": 0.08452709410339594,
      "loss/logits": 0.0,
      "step": 3170
    },
    {
      "epoch": 0.159,
      "grad_norm": 19.0,
      "grad_norm_var": 4.3259765625,
      "learning_rate": 0.0001,
      "loss": 4.4271,
      "loss/crossentropy": 2.1395395755767823,
      "loss/hidden": 3.5203125,
      "loss/jsd": 0.10172450188547373,
      "loss/logits": 0.0,
      "step": 3180
    },
    {
      "epoch": 0.1595,
      "grad_norm": 19.375,
      "grad_norm_var": 4.408268229166667,
      "learning_rate": 0.0001,
      "loss": 4.4574,
      "loss/crossentropy": 2.394977739453316,
      "loss/hidden": 3.6234375,
      "loss/jsd": 0.10171002727001906,
      "loss/logits": 0.0,
      "step": 3190
    },
    {
      "epoch": 0.16,
      "grad_norm": 16.875,
      "grad_norm_var": 6.147379557291667,
      "learning_rate": 0.0001,
      "loss": 4.4832,
      "loss/crossentropy": 2.355364751815796,
      "loss/hidden": 3.50546875,
      "loss/jsd": 0.08951211860403419,
      "loss/logits": 0.0,
      "step": 3200
    },
    {
      "epoch": 0.1605,
      "grad_norm": 28.625,
      "grad_norm_var": 1.244752705334018e+18,
      "learning_rate": 0.0001,
      "loss": 4.4816,
      "loss/crossentropy": 2.305925354361534,
      "loss/hidden": 3.58828125,
      "loss/jsd": 0.08834340209141374,
      "loss/logits": 0.0,
      "step": 3210
    },
    {
      "epoch": 0.161,
      "grad_norm": 18.25,
      "grad_norm_var": 9.839518229166666,
      "learning_rate": 0.0001,
      "loss": 4.4863,
      "loss/crossentropy": 2.3078080981969835,
      "loss/hidden": 3.5203125,
      "loss/jsd": 0.0940877721644938,
      "loss/logits": 0.0,
      "step": 3220
    },
    {
      "epoch": 0.1615,
      "grad_norm": 16.125,
      "grad_norm_var": 2.7150390625,
      "learning_rate": 0.0001,
      "loss": 4.4064,
      "loss/crossentropy": 2.4253244906663896,
      "loss/hidden": 3.58125,
      "loss/jsd": 0.09865610068663955,
      "loss/logits": 0.0,
      "step": 3230
    },
    {
      "epoch": 0.162,
      "grad_norm": 18.75,
      "grad_norm_var": 4.934749348958333,
      "learning_rate": 0.0001,
      "loss": 4.3174,
      "loss/crossentropy": 2.4989412158727644,
      "loss/hidden": 3.4234375,
      "loss/jsd": 0.08196726078167557,
      "loss/logits": 0.0,
      "step": 3240
    },
    {
      "epoch": 0.1625,
      "grad_norm": 16.375,
      "grad_norm_var": 2.9952962239583334,
      "learning_rate": 0.0001,
      "loss": 4.3693,
      "loss/crossentropy": 2.2475881457328795,
      "loss/hidden": 3.47109375,
      "loss/jsd": 0.09224425395950675,
      "loss/logits": 0.0,
      "step": 3250
    },
    {
      "epoch": 0.163,
      "grad_norm": 15.3125,
      "grad_norm_var": 1.9930826822916667,
      "learning_rate": 0.0001,
      "loss": 4.3783,
      "loss/crossentropy": 2.2365039557218553,
      "loss/hidden": 3.49921875,
      "loss/jsd": 0.09003520868718624,
      "loss/logits": 0.0,
      "step": 3260
    },
    {
      "epoch": 0.1635,
      "grad_norm": 17.375,
      "grad_norm_var": 2.0921223958333335,
      "learning_rate": 0.0001,
      "loss": 4.4329,
      "loss/crossentropy": 2.266706997156143,
      "loss/hidden": 3.542578125,
      "loss/jsd": 0.09133774926885962,
      "loss/logits": 0.0,
      "step": 3270
    },
    {
      "epoch": 0.164,
      "grad_norm": 17.0,
      "grad_norm_var": 2.531510416666667,
      "learning_rate": 0.0001,
      "loss": 4.5264,
      "loss/crossentropy": 2.292432078719139,
      "loss/hidden": 3.67265625,
      "loss/jsd": 0.11363288760185242,
      "loss/logits": 0.0,
      "step": 3280
    },
    {
      "epoch": 0.1645,
      "grad_norm": 20.125,
      "grad_norm_var": 2.6884765625,
      "learning_rate": 0.0001,
      "loss": 4.3941,
      "loss/crossentropy": 2.308723744750023,
      "loss/hidden": 3.60234375,
      "loss/jsd": 0.09796320544555784,
      "loss/logits": 0.0,
      "step": 3290
    },
    {
      "epoch": 0.165,
      "grad_norm": 19.0,
      "grad_norm_var": 3.3436848958333334,
      "learning_rate": 0.0001,
      "loss": 4.3738,
      "loss/crossentropy": 2.3898502081632613,
      "loss/hidden": 3.471484375,
      "loss/jsd": 0.08741156700998545,
      "loss/logits": 0.0,
      "step": 3300
    },
    {
      "epoch": 0.1655,
      "grad_norm": 19.875,
      "grad_norm_var": 3.4898274739583335,
      "learning_rate": 0.0001,
      "loss": 4.3816,
      "loss/crossentropy": 2.306541550159454,
      "loss/hidden": 3.592578125,
      "loss/jsd": 0.09893495552241802,
      "loss/logits": 0.0,
      "step": 3310
    },
    {
      "epoch": 0.166,
      "grad_norm": 14.8125,
      "grad_norm_var": 2.6378743489583334,
      "learning_rate": 0.0001,
      "loss": 4.37,
      "loss/crossentropy": 2.3887303933501243,
      "loss/hidden": 3.480859375,
      "loss/jsd": 0.08493705298751593,
      "loss/logits": 0.0,
      "step": 3320
    },
    {
      "epoch": 0.1665,
      "grad_norm": 21.875,
      "grad_norm_var": 3.0442545572916666,
      "learning_rate": 0.0001,
      "loss": 4.4504,
      "loss/crossentropy": 2.3878179833292963,
      "loss/hidden": 3.632421875,
      "loss/jsd": 0.09913788838312029,
      "loss/logits": 0.0,
      "step": 3330
    },
    {
      "epoch": 0.167,
      "grad_norm": 20.25,
      "grad_norm_var": 10.913785807291667,
      "learning_rate": 0.0001,
      "loss": 4.4553,
      "loss/crossentropy": 2.2205622404813767,
      "loss/hidden": 3.636328125,
      "loss/jsd": 0.10992270009592175,
      "loss/logits": 0.0,
      "step": 3340
    },
    {
      "epoch": 0.1675,
      "grad_norm": 22.0,
      "grad_norm_var": 7.966520182291666,
      "learning_rate": 0.0001,
      "loss": 4.3545,
      "loss/crossentropy": 2.108812813460827,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0757693353574723,
      "loss/logits": 0.0,
      "step": 3350
    },
    {
      "epoch": 0.168,
      "grad_norm": 15.6875,
      "grad_norm_var": 3.8549479166666667,
      "learning_rate": 0.0001,
      "loss": 4.3713,
      "loss/crossentropy": 2.289568629860878,
      "loss/hidden": 3.541015625,
      "loss/jsd": 0.10061329454183579,
      "loss/logits": 0.0,
      "step": 3360
    },
    {
      "epoch": 0.1685,
      "grad_norm": 17.5,
      "grad_norm_var": 4.482145182291666,
      "learning_rate": 0.0001,
      "loss": 4.4519,
      "loss/crossentropy": 2.352386988699436,
      "loss/hidden": 3.42734375,
      "loss/jsd": 0.08975700601004064,
      "loss/logits": 0.0,
      "step": 3370
    },
    {
      "epoch": 0.169,
      "grad_norm": 18.875,
      "grad_norm_var": 4.2978515625,
      "learning_rate": 0.0001,
      "loss": 4.3503,
      "loss/crossentropy": 2.31557312309742,
      "loss/hidden": 3.548828125,
      "loss/jsd": 0.0878440142609179,
      "loss/logits": 0.0,
      "step": 3380
    },
    {
      "epoch": 0.1695,
      "grad_norm": 20.875,
      "grad_norm_var": 5.702604166666666,
      "learning_rate": 0.0001,
      "loss": 4.3864,
      "loss/crossentropy": 2.339674559235573,
      "loss/hidden": 3.464453125,
      "loss/jsd": 0.0880395533517003,
      "loss/logits": 0.0,
      "step": 3390
    },
    {
      "epoch": 0.17,
      "grad_norm": 15.1875,
      "grad_norm_var": 5.098551432291667,
      "learning_rate": 0.0001,
      "loss": 4.3726,
      "loss/crossentropy": 2.2533027648925783,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.08741035936400295,
      "loss/logits": 0.0,
      "step": 3400
    },
    {
      "epoch": 0.1705,
      "grad_norm": 21.875,
      "grad_norm_var": 3.4983723958333335,
      "learning_rate": 0.0001,
      "loss": 4.3701,
      "loss/crossentropy": 2.280165506899357,
      "loss/hidden": 3.52890625,
      "loss/jsd": 0.09410012043081224,
      "loss/logits": 0.0,
      "step": 3410
    },
    {
      "epoch": 0.171,
      "grad_norm": 15.75,
      "grad_norm_var": 3.486962890625,
      "learning_rate": 0.0001,
      "loss": 4.4465,
      "loss/crossentropy": 2.3110105454921723,
      "loss/hidden": 3.54453125,
      "loss/jsd": 0.10350852748379111,
      "loss/logits": 0.0,
      "step": 3420
    },
    {
      "epoch": 0.1715,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.7901041666666666,
      "learning_rate": 0.0001,
      "loss": 4.2987,
      "loss/crossentropy": 2.5183032125234606,
      "loss/hidden": 3.541015625,
      "loss/jsd": 0.0940008645877242,
      "loss/logits": 0.0,
      "step": 3430
    },
    {
      "epoch": 0.172,
      "grad_norm": 16.625,
      "grad_norm_var": 1.3207509498935816e+18,
      "learning_rate": 0.0001,
      "loss": 4.3968,
      "loss/crossentropy": 2.298141914606094,
      "loss/hidden": 3.538671875,
      "loss/jsd": 0.09232875565066934,
      "loss/logits": 0.0,
      "step": 3440
    },
    {
      "epoch": 0.1725,
      "grad_norm": 25.875,
      "grad_norm_var": 10.539176432291667,
      "learning_rate": 0.0001,
      "loss": 4.405,
      "loss/crossentropy": 2.4251868039369584,
      "loss/hidden": 3.620703125,
      "loss/jsd": 0.09764928705990314,
      "loss/logits": 0.0,
      "step": 3450
    },
    {
      "epoch": 0.173,
      "grad_norm": 16.5,
      "grad_norm_var": 37.917301432291666,
      "learning_rate": 0.0001,
      "loss": 4.3521,
      "loss/crossentropy": 2.4465878754854202,
      "loss/hidden": 3.41328125,
      "loss/jsd": 0.09263761136680841,
      "loss/logits": 0.0,
      "step": 3460
    },
    {
      "epoch": 0.1735,
      "grad_norm": 19.5,
      "grad_norm_var": 10.325895182291667,
      "learning_rate": 0.0001,
      "loss": 4.3055,
      "loss/crossentropy": 2.341625288128853,
      "loss/hidden": 3.46171875,
      "loss/jsd": 0.08955673705786467,
      "loss/logits": 0.0,
      "step": 3470
    },
    {
      "epoch": 0.174,
      "grad_norm": 18.25,
      "grad_norm_var": 9.155582682291667,
      "learning_rate": 0.0001,
      "loss": 4.257,
      "loss/crossentropy": 2.2626075088977813,
      "loss/hidden": 3.38046875,
      "loss/jsd": 0.08382235984317958,
      "loss/logits": 0.0,
      "step": 3480
    },
    {
      "epoch": 0.1745,
      "grad_norm": 24.25,
      "grad_norm_var": 40.449853515625,
      "learning_rate": 0.0001,
      "loss": 4.365,
      "loss/crossentropy": 2.22887095361948,
      "loss/hidden": 3.495703125,
      "loss/jsd": 0.08516010586172343,
      "loss/logits": 0.0,
      "step": 3490
    },
    {
      "epoch": 0.175,
      "grad_norm": 29.625,
      "grad_norm_var": 22.202848307291667,
      "learning_rate": 0.0001,
      "loss": 4.4211,
      "loss/crossentropy": 2.325581954419613,
      "loss/hidden": 3.626171875,
      "loss/jsd": 0.10623239502310752,
      "loss/logits": 0.0,
      "step": 3500
    },
    {
      "epoch": 0.1755,
      "grad_norm": 18.25,
      "grad_norm_var": 20.083268229166666,
      "learning_rate": 0.0001,
      "loss": 4.4183,
      "loss/crossentropy": 2.3138944447040557,
      "loss/hidden": 3.605078125,
      "loss/jsd": 0.09691860349848866,
      "loss/logits": 0.0,
      "step": 3510
    },
    {
      "epoch": 0.176,
      "grad_norm": 14.75,
      "grad_norm_var": 3.0729166666666665,
      "learning_rate": 0.0001,
      "loss": 4.3327,
      "loss/crossentropy": 2.335177455097437,
      "loss/hidden": 3.516796875,
      "loss/jsd": 0.08317867233417928,
      "loss/logits": 0.0,
      "step": 3520
    },
    {
      "epoch": 0.1765,
      "grad_norm": 29.375,
      "grad_norm_var": 313.28943684895836,
      "learning_rate": 0.0001,
      "loss": 4.3804,
      "loss/crossentropy": 2.2869663372635842,
      "loss/hidden": 3.3875,
      "loss/jsd": 0.07983446251600981,
      "loss/logits": 0.0,
      "step": 3530
    },
    {
      "epoch": 0.177,
      "grad_norm": 18.75,
      "grad_norm_var": 294.8395182291667,
      "learning_rate": 0.0001,
      "loss": 4.4268,
      "loss/crossentropy": 2.3664276599884033,
      "loss/hidden": 3.541796875,
      "loss/jsd": 0.09534696582704782,
      "loss/logits": 0.0,
      "step": 3540
    },
    {
      "epoch": 0.1775,
      "grad_norm": 16.875,
      "grad_norm_var": 9.458707682291667,
      "learning_rate": 0.0001,
      "loss": 4.2841,
      "loss/crossentropy": 2.3651267111301424,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.08079936136491597,
      "loss/logits": 0.0,
      "step": 3550
    },
    {
      "epoch": 0.178,
      "grad_norm": 21.125,
      "grad_norm_var": 4.593473307291666,
      "learning_rate": 0.0001,
      "loss": 4.2825,
      "loss/crossentropy": 2.392011249065399,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.09476534733548761,
      "loss/logits": 0.0,
      "step": 3560
    },
    {
      "epoch": 0.1785,
      "grad_norm": 23.0,
      "grad_norm_var": 3.734375,
      "learning_rate": 0.0001,
      "loss": 4.3928,
      "loss/crossentropy": 2.4183569096028803,
      "loss/hidden": 3.3953125,
      "loss/jsd": 0.0872859289869666,
      "loss/logits": 0.0,
      "step": 3570
    },
    {
      "epoch": 0.179,
      "grad_norm": 17.375,
      "grad_norm_var": 6.357405598958334,
      "learning_rate": 0.0001,
      "loss": 4.366,
      "loss/crossentropy": 2.228242626786232,
      "loss/hidden": 3.61484375,
      "loss/jsd": 0.09655670188367367,
      "loss/logits": 0.0,
      "step": 3580
    },
    {
      "epoch": 0.1795,
      "grad_norm": 19.625,
      "grad_norm_var": 4.720247395833334,
      "learning_rate": 0.0001,
      "loss": 4.3721,
      "loss/crossentropy": 2.3514621019363404,
      "loss/hidden": 3.55703125,
      "loss/jsd": 0.08998525207862258,
      "loss/logits": 0.0,
      "step": 3590
    },
    {
      "epoch": 0.18,
      "grad_norm": 17.75,
      "grad_norm_var": 86.24099934895834,
      "learning_rate": 0.0001,
      "loss": 4.2887,
      "loss/crossentropy": 2.3266086250543596,
      "loss/hidden": 3.3921875,
      "loss/jsd": 0.08203610377386213,
      "loss/logits": 0.0,
      "step": 3600
    },
    {
      "epoch": 0.1805,
      "grad_norm": 17.125,
      "grad_norm_var": 6.689428671005983e+17,
      "learning_rate": 0.0001,
      "loss": 4.2832,
      "loss/crossentropy": 2.358739697933197,
      "loss/hidden": 3.381640625,
      "loss/jsd": 0.07689286703243851,
      "loss/logits": 0.0,
      "step": 3610
    },
    {
      "epoch": 0.181,
      "grad_norm": 19.75,
      "grad_norm_var": 6.689428671857951e+17,
      "learning_rate": 0.0001,
      "loss": 4.2562,
      "loss/crossentropy": 2.299892693758011,
      "loss/hidden": 3.358203125,
      "loss/jsd": 0.07548968028277159,
      "loss/logits": 0.0,
      "step": 3620
    },
    {
      "epoch": 0.1815,
      "grad_norm": 16.5,
      "grad_norm_var": 3.8056640625,
      "learning_rate": 0.0001,
      "loss": 4.3453,
      "loss/crossentropy": 2.1600609093904497,
      "loss/hidden": 3.521484375,
      "loss/jsd": 0.0914209995418787,
      "loss/logits": 0.0,
      "step": 3630
    },
    {
      "epoch": 0.182,
      "grad_norm": 18.375,
      "grad_norm_var": 5.445833333333334,
      "learning_rate": 0.0001,
      "loss": 4.261,
      "loss/crossentropy": 2.2630960240960123,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.07350569609552622,
      "loss/logits": 0.0,
      "step": 3640
    },
    {
      "epoch": 0.1825,
      "grad_norm": 19.5,
      "grad_norm_var": 4.786393229166666,
      "learning_rate": 0.0001,
      "loss": 4.2941,
      "loss/crossentropy": 2.26744422018528,
      "loss/hidden": 3.434765625,
      "loss/jsd": 0.09071792410686612,
      "loss/logits": 0.0,
      "step": 3650
    },
    {
      "epoch": 0.183,
      "grad_norm": 16.375,
      "grad_norm_var": 3.675520833333333,
      "learning_rate": 0.0001,
      "loss": 4.216,
      "loss/crossentropy": 2.392577236890793,
      "loss/hidden": 3.39140625,
      "loss/jsd": 0.0848071664571762,
      "loss/logits": 0.0,
      "step": 3660
    },
    {
      "epoch": 0.1835,
      "grad_norm": 18.625,
      "grad_norm_var": 2.8169270833333333,
      "learning_rate": 0.0001,
      "loss": 4.2512,
      "loss/crossentropy": 2.3719822376966477,
      "loss/hidden": 3.4421875,
      "loss/jsd": 0.08796066055074334,
      "loss/logits": 0.0,
      "step": 3670
    },
    {
      "epoch": 0.184,
      "grad_norm": 18.125,
      "grad_norm_var": 5.067692057291667,
      "learning_rate": 0.0001,
      "loss": 4.2015,
      "loss/crossentropy": 2.2736427552998064,
      "loss/hidden": 3.362109375,
      "loss/jsd": 0.0805484069045633,
      "loss/logits": 0.0,
      "step": 3680
    },
    {
      "epoch": 0.1845,
      "grad_norm": 14.8125,
      "grad_norm_var": 5.062434895833333,
      "learning_rate": 0.0001,
      "loss": 4.2791,
      "loss/crossentropy": 2.298249673843384,
      "loss/hidden": 3.403515625,
      "loss/jsd": 0.08579938132315874,
      "loss/logits": 0.0,
      "step": 3690
    },
    {
      "epoch": 0.185,
      "grad_norm": 17.75,
      "grad_norm_var": 5.132747395833333,
      "learning_rate": 0.0001,
      "loss": 4.2845,
      "loss/crossentropy": 2.29532730281353,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.08520804699510336,
      "loss/logits": 0.0,
      "step": 3700
    },
    {
      "epoch": 0.1855,
      "grad_norm": 21.375,
      "grad_norm_var": 3.1105305989583334,
      "learning_rate": 0.0001,
      "loss": 4.2881,
      "loss/crossentropy": 2.266036620736122,
      "loss/hidden": 3.4421875,
      "loss/jsd": 0.08662721011787652,
      "loss/logits": 0.0,
      "step": 3710
    },
    {
      "epoch": 0.186,
      "grad_norm": 17.875,
      "grad_norm_var": 2.1442057291666665,
      "learning_rate": 0.0001,
      "loss": 4.3015,
      "loss/crossentropy": 2.3964017778635025,
      "loss/hidden": 3.443359375,
      "loss/jsd": 0.08621067805215717,
      "loss/logits": 0.0,
      "step": 3720
    },
    {
      "epoch": 0.1865,
      "grad_norm": 16.5,
      "grad_norm_var": 3.620556640625,
      "learning_rate": 0.0001,
      "loss": 4.2411,
      "loss/crossentropy": 2.3594220340251923,
      "loss/hidden": 3.336328125,
      "loss/jsd": 0.0772560654208064,
      "loss/logits": 0.0,
      "step": 3730
    },
    {
      "epoch": 0.187,
      "grad_norm": 16.75,
      "grad_norm_var": 3.252978515625,
      "learning_rate": 0.0001,
      "loss": 4.184,
      "loss/crossentropy": 2.2494852378964425,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.08321888605132699,
      "loss/logits": 0.0,
      "step": 3740
    },
    {
      "epoch": 0.1875,
      "grad_norm": 18.875,
      "grad_norm_var": 3.7570149739583334,
      "learning_rate": 0.0001,
      "loss": 4.2329,
      "loss/crossentropy": 2.178547790646553,
      "loss/hidden": 3.322265625,
      "loss/jsd": 0.07429210902191699,
      "loss/logits": 0.0,
      "step": 3750
    },
    {
      "epoch": 0.188,
      "grad_norm": 16.125,
      "grad_norm_var": 4.394645182291667,
      "learning_rate": 0.0001,
      "loss": 4.2641,
      "loss/crossentropy": 2.2659785449504852,
      "loss/hidden": 3.4265625,
      "loss/jsd": 0.08605121849104762,
      "loss/logits": 0.0,
      "step": 3760
    },
    {
      "epoch": 0.1885,
      "grad_norm": 19.375,
      "grad_norm_var": 4.303889973958333,
      "learning_rate": 0.0001,
      "loss": 4.2343,
      "loss/crossentropy": 2.3981280818581583,
      "loss/hidden": 3.384375,
      "loss/jsd": 0.0853766439948231,
      "loss/logits": 0.0,
      "step": 3770
    },
    {
      "epoch": 0.189,
      "grad_norm": 15.75,
      "grad_norm_var": 3.1048014322916666,
      "learning_rate": 0.0001,
      "loss": 4.2052,
      "loss/crossentropy": 2.2695484533905983,
      "loss/hidden": 3.512109375,
      "loss/jsd": 0.09265543352812529,
      "loss/logits": 0.0,
      "step": 3780
    },
    {
      "epoch": 0.1895,
      "grad_norm": 15.3125,
      "grad_norm_var": 2.510139973958333,
      "learning_rate": 0.0001,
      "loss": 4.2526,
      "loss/crossentropy": 2.1818419501185415,
      "loss/hidden": 3.376171875,
      "loss/jsd": 0.08593555409461259,
      "loss/logits": 0.0,
      "step": 3790
    },
    {
      "epoch": 0.19,
      "grad_norm": 15.0625,
      "grad_norm_var": 2.105729166666667,
      "learning_rate": 0.0001,
      "loss": 4.2301,
      "loss/crossentropy": 2.218023180961609,
      "loss/hidden": 3.334765625,
      "loss/jsd": 0.07895527156069874,
      "loss/logits": 0.0,
      "step": 3800
    },
    {
      "epoch": 0.1905,
      "grad_norm": 15.5625,
      "grad_norm_var": 6.692708333333333,
      "learning_rate": 0.0001,
      "loss": 4.241,
      "loss/crossentropy": 2.2893342286348344,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.07659890875220299,
      "loss/logits": 0.0,
      "step": 3810
    },
    {
      "epoch": 0.191,
      "grad_norm": 17.25,
      "grad_norm_var": 5.272509765625,
      "learning_rate": 0.0001,
      "loss": 4.2655,
      "loss/crossentropy": 2.207420842349529,
      "loss/hidden": 3.36484375,
      "loss/jsd": 0.08572290684096515,
      "loss/logits": 0.0,
      "step": 3820
    },
    {
      "epoch": 0.1915,
      "grad_norm": 21.625,
      "grad_norm_var": 5.355712890625,
      "learning_rate": 0.0001,
      "loss": 4.2474,
      "loss/crossentropy": 2.3076944231986998,
      "loss/hidden": 3.31796875,
      "loss/jsd": 0.07485279012471438,
      "loss/logits": 0.0,
      "step": 3830
    },
    {
      "epoch": 0.192,
      "grad_norm": 15.25,
      "grad_norm_var": 6.646858723958333,
      "learning_rate": 0.0001,
      "loss": 4.2634,
      "loss/crossentropy": 2.42186721265316,
      "loss/hidden": 3.4078125,
      "loss/jsd": 0.08714157855138183,
      "loss/logits": 0.0,
      "step": 3840
    },
    {
      "epoch": 0.1925,
      "grad_norm": 4076863488.0,
      "grad_norm_var": 1.0388009843068502e+18,
      "learning_rate": 0.0001,
      "loss": 4.2739,
      "loss/crossentropy": 2.3014174938201903,
      "loss/hidden": 3.364453125,
      "loss/jsd": 0.07954654460772873,
      "loss/logits": 0.0,
      "step": 3850
    },
    {
      "epoch": 0.193,
      "grad_norm": 17.5,
      "grad_norm_var": 1.0388009847272768e+18,
      "learning_rate": 0.0001,
      "loss": 4.2215,
      "loss/crossentropy": 2.348978337645531,
      "loss/hidden": 3.45625,
      "loss/jsd": 0.08323998479172587,
      "loss/logits": 0.0,
      "step": 3860
    },
    {
      "epoch": 0.1935,
      "grad_norm": 18.75,
      "grad_norm_var": 3.981884765625,
      "learning_rate": 0.0001,
      "loss": 4.1528,
      "loss/crossentropy": 2.3754432618618013,
      "loss/hidden": 3.401171875,
      "loss/jsd": 0.08722320841625333,
      "loss/logits": 0.0,
      "step": 3870
    },
    {
      "epoch": 0.194,
      "grad_norm": 18.875,
      "grad_norm_var": 3.824072265625,
      "learning_rate": 0.0001,
      "loss": 4.2868,
      "loss/crossentropy": 2.3063534289598464,
      "loss/hidden": 3.43515625,
      "loss/jsd": 0.08732216758653522,
      "loss/logits": 0.0,
      "step": 3880
    },
    {
      "epoch": 0.1945,
      "grad_norm": 18.25,
      "grad_norm_var": 3.3018229166666666,
      "learning_rate": 0.0001,
      "loss": 4.2463,
      "loss/crossentropy": 2.4114058747887612,
      "loss/hidden": 3.395703125,
      "loss/jsd": 0.08345712553709746,
      "loss/logits": 0.0,
      "step": 3890
    },
    {
      "epoch": 0.195,
      "grad_norm": 18.0,
      "grad_norm_var": 3.595833333333333,
      "learning_rate": 0.0001,
      "loss": 4.2128,
      "loss/crossentropy": 2.1565380930900573,
      "loss/hidden": 3.23984375,
      "loss/jsd": 0.07183347269892693,
      "loss/logits": 0.0,
      "step": 3900
    },
    {
      "epoch": 0.1955,
      "grad_norm": 19.5,
      "grad_norm_var": 1.669775390625,
      "learning_rate": 0.0001,
      "loss": 4.2174,
      "loss/crossentropy": 2.4012755006551743,
      "loss/hidden": 3.35859375,
      "loss/jsd": 0.08356887567788363,
      "loss/logits": 0.0,
      "step": 3910
    },
    {
      "epoch": 0.196,
      "grad_norm": 16.75,
      "grad_norm_var": 2.569775390625,
      "learning_rate": 0.0001,
      "loss": 4.2516,
      "loss/crossentropy": 2.4133204758167266,
      "loss/hidden": 3.405078125,
      "loss/jsd": 0.08416441585868598,
      "loss/logits": 0.0,
      "step": 3920
    },
    {
      "epoch": 0.1965,
      "grad_norm": 16.125,
      "grad_norm_var": 4.249072265625,
      "learning_rate": 0.0001,
      "loss": 4.2424,
      "loss/crossentropy": 2.2017408296465875,
      "loss/hidden": 3.434375,
      "loss/jsd": 0.08481362634338438,
      "loss/logits": 0.0,
      "step": 3930
    },
    {
      "epoch": 0.197,
      "grad_norm": 18.0,
      "grad_norm_var": 13.563541666666667,
      "learning_rate": 0.0001,
      "loss": 4.2145,
      "loss/crossentropy": 2.1327252730727198,
      "loss/hidden": 3.358203125,
      "loss/jsd": 0.08263032594695688,
      "loss/logits": 0.0,
      "step": 3940
    },
    {
      "epoch": 0.1975,
      "grad_norm": 15.9375,
      "grad_norm_var": 13.279801432291666,
      "learning_rate": 0.0001,
      "loss": 4.271,
      "loss/crossentropy": 2.3732340067625044,
      "loss/hidden": 3.38984375,
      "loss/jsd": 0.09080582885071635,
      "loss/logits": 0.0,
      "step": 3950
    },
    {
      "epoch": 0.198,
      "grad_norm": 14.125,
      "grad_norm_var": 3.5541015625,
      "learning_rate": 0.0001,
      "loss": 4.3277,
      "loss/crossentropy": 2.2829252019524575,
      "loss/hidden": 3.504296875,
      "loss/jsd": 0.09264815384522081,
      "loss/logits": 0.0,
      "step": 3960
    },
    {
      "epoch": 0.1985,
      "grad_norm": 20.125,
      "grad_norm_var": 5.493212890625,
      "learning_rate": 0.0001,
      "loss": 4.3215,
      "loss/crossentropy": 2.284733434021473,
      "loss/hidden": 3.394921875,
      "loss/jsd": 0.08987429440021515,
      "loss/logits": 0.0,
      "step": 3970
    },
    {
      "epoch": 0.199,
      "grad_norm": 17.0,
      "grad_norm_var": 5.512223307291666,
      "learning_rate": 0.0001,
      "loss": 4.2933,
      "loss/crossentropy": 2.2337097018957137,
      "loss/hidden": 3.3640625,
      "loss/jsd": 0.0808649729937315,
      "loss/logits": 0.0,
      "step": 3980
    },
    {
      "epoch": 0.1995,
      "grad_norm": 16.625,
      "grad_norm_var": 12.917122395833333,
      "learning_rate": 0.0001,
      "loss": 4.2148,
      "loss/crossentropy": 2.3057729706168173,
      "loss/hidden": 3.411328125,
      "loss/jsd": 0.08738104859367013,
      "loss/logits": 0.0,
      "step": 3990
    },
    {
      "epoch": 0.2,
      "grad_norm": 15.9375,
      "grad_norm_var": 5.007145182291667,
      "learning_rate": 0.0001,
      "loss": 4.217,
      "loss/crossentropy": 2.3626988530158997,
      "loss/hidden": 3.44296875,
      "loss/jsd": 0.09443312305957079,
      "loss/logits": 0.0,
      "step": 4000
    }
  ],
  "logging_steps": 10,
  "max_steps": 20000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 2000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.1430040128035226e+19,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}