{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.008241509185161987,
  "eval_steps": 2000,
  "global_step": 1000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 8.241509185161987e-06,
      "grad_norm": 780.0,
      "learning_rate": 5e-05,
      "loss": 22.7489,
      "loss/crossentropy": 8.68287467956543,
      "loss/dist_ce": 0.0,
      "loss/hidden": 16.25,
      "loss/idx": 0.0,
      "loss/logits": 6.498888969421387,
      "step": 1
    },
    {
      "epoch": 1.6483018370323974e-05,
      "grad_norm": 824.0,
      "learning_rate": 5e-05,
      "loss": 18.5076,
      "loss/crossentropy": 8.787271499633789,
      "loss/dist_ce": 0.0,
      "loss/hidden": 12.625,
      "loss/idx": 0.0,
      "loss/logits": 5.8825788497924805,
      "step": 2
    },
    {
      "epoch": 2.472452755548596e-05,
      "grad_norm": 466.0,
      "learning_rate": 5e-05,
      "loss": 12.0241,
      "loss/crossentropy": 7.810218334197998,
      "loss/dist_ce": 0.0,
      "loss/hidden": 7.21875,
      "loss/idx": 0.0,
      "loss/logits": 4.805373191833496,
      "step": 3
    },
    {
      "epoch": 3.296603674064795e-05,
      "grad_norm": 215.0,
      "learning_rate": 5e-05,
      "loss": 9.4126,
      "loss/crossentropy": 6.043552398681641,
      "loss/dist_ce": 0.0,
      "loss/hidden": 6.25,
      "loss/idx": 0.0,
      "loss/logits": 3.1625852584838867,
      "step": 4
    },
    {
      "epoch": 4.1207545925809937e-05,
      "grad_norm": 468.0,
      "learning_rate": 5e-05,
      "loss": 6.2853,
      "loss/crossentropy": 4.783352851867676,
      "loss/dist_ce": 0.0,
      "loss/hidden": 4.21875,
      "loss/idx": 0.0,
      "loss/logits": 2.066528558731079,
      "step": 5
    },
    {
      "epoch": 4.944905511097192e-05,
      "grad_norm": 306.0,
      "learning_rate": 5e-05,
      "loss": 5.4625,
      "loss/crossentropy": 1.6133296489715576,
      "loss/dist_ce": 0.0,
      "loss/hidden": 4.1875,
      "loss/idx": 0.0,
      "loss/logits": 1.2749497890472412,
      "step": 6
    },
    {
      "epoch": 5.769056429613391e-05,
      "grad_norm": 217.0,
      "learning_rate": 5e-05,
      "loss": 8.1947,
      "loss/crossentropy": 4.63270378112793,
      "loss/dist_ce": 0.0,
      "loss/hidden": 5.78125,
      "loss/idx": 0.0,
      "loss/logits": 2.4134607315063477,
      "step": 7
    },
    {
      "epoch": 6.59320734812959e-05,
      "grad_norm": 404.0,
      "learning_rate": 5e-05,
      "loss": 5.0477,
      "loss/crossentropy": 4.424153804779053,
      "loss/dist_ce": 0.0,
      "loss/hidden": 3.53125,
      "loss/idx": 0.0,
      "loss/logits": 1.5164613723754883,
      "step": 8
    },
    {
      "epoch": 7.417358266645788e-05,
      "grad_norm": 83.5,
      "learning_rate": 5e-05,
      "loss": 3.1549,
      "loss/crossentropy": 3.354282855987549,
      "loss/dist_ce": 0.0,
      "loss/hidden": 2.296875,
      "loss/idx": 0.0,
      "loss/logits": 0.8579829931259155,
      "step": 9
    },
    {
      "epoch": 8.241509185161987e-05,
      "grad_norm": 115.5,
      "learning_rate": 5e-05,
      "loss": 3.1588,
      "loss/crossentropy": 3.1871225833892822,
      "loss/dist_ce": 0.0,
      "loss/hidden": 2.375,
      "loss/idx": 0.0,
      "loss/logits": 0.7837648391723633,
      "step": 10
    },
    {
      "epoch": 9.065660103678186e-05,
      "grad_norm": 252.0,
      "learning_rate": 5e-05,
      "loss": 7.2603,
      "loss/crossentropy": 4.682134628295898,
      "loss/dist_ce": 0.0,
      "loss/hidden": 5.0,
      "loss/idx": 0.0,
      "loss/logits": 2.2602720260620117,
      "step": 11
    },
    {
      "epoch": 9.889811022194384e-05,
      "grad_norm": 109.0,
      "learning_rate": 5e-05,
      "loss": 3.1302,
      "loss/crossentropy": 2.417746067047119,
      "loss/dist_ce": 0.0,
      "loss/hidden": 2.46875,
      "loss/idx": 0.0,
      "loss/logits": 0.661416232585907,
      "step": 12
    },
    {
      "epoch": 0.00010713961940710583,
      "grad_norm": 68.5,
      "learning_rate": 5e-05,
      "loss": 2.4003,
      "loss/crossentropy": 1.6968345642089844,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.984375,
      "loss/idx": 0.0,
      "loss/logits": 0.4158973693847656,
      "step": 13
    },
    {
      "epoch": 0.00011538112859226781,
      "grad_norm": 454.0,
      "learning_rate": 5e-05,
      "loss": 7.3347,
      "loss/crossentropy": 4.652151584625244,
      "loss/dist_ce": 0.0,
      "loss/hidden": 4.25,
      "loss/idx": 0.0,
      "loss/logits": 3.084686756134033,
      "step": 14
    },
    {
      "epoch": 0.00012362263777742982,
      "grad_norm": 126.5,
      "learning_rate": 5e-05,
      "loss": 2.4695,
      "loss/crossentropy": 3.0716333389282227,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.875,
      "loss/idx": 0.0,
      "loss/logits": 0.594476580619812,
      "step": 15
    },
    {
      "epoch": 0.0001318641469625918,
      "grad_norm": 306.0,
      "grad_norm_var": 53540.9625,
      "learning_rate": 5e-05,
      "loss": 3.9132,
      "loss/crossentropy": 2.430070638656616,
      "loss/dist_ce": 0.0,
      "loss/hidden": 2.9375,
      "loss/idx": 0.0,
      "loss/logits": 0.9756777882575989,
      "step": 16
    },
    {
      "epoch": 0.00014010565614775377,
      "grad_norm": 68.5,
      "grad_norm_var": 41986.49895833333,
      "learning_rate": 5e-05,
      "loss": 2.3829,
      "loss/crossentropy": 1.8029091358184814,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.8828125,
      "loss/idx": 0.0,
      "loss/logits": 0.5000446438789368,
      "step": 17
    },
    {
      "epoch": 0.00014834716533291577,
      "grad_norm": 139.0,
      "grad_norm_var": 21647.707291666666,
      "learning_rate": 5e-05,
      "loss": 2.5801,
      "loss/crossentropy": 1.5956979990005493,
      "loss/dist_ce": 0.0,
      "loss/hidden": 2.15625,
      "loss/idx": 0.0,
      "loss/logits": 0.4238685965538025,
      "step": 18
    },
    {
      "epoch": 0.00015658867451807774,
      "grad_norm": 28.625,
      "grad_norm_var": 20272.937434895834,
      "learning_rate": 5e-05,
      "loss": 1.6796,
      "loss/crossentropy": 2.664867401123047,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.296875,
      "loss/idx": 0.0,
      "loss/logits": 0.3827553689479828,
      "step": 19
    },
    {
      "epoch": 0.00016483018370323975,
      "grad_norm": 81.5,
      "grad_norm_var": 21299.079622395835,
      "learning_rate": 5e-05,
      "loss": 1.8862,
      "loss/crossentropy": 3.0564301013946533,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.4609375,
      "loss/idx": 0.0,
      "loss/logits": 0.42524370551109314,
      "step": 20
    },
    {
      "epoch": 0.00017307169288840172,
      "grad_norm": 71.5,
      "grad_norm_var": 17047.856184895834,
      "learning_rate": 5e-05,
      "loss": 1.8175,
      "loss/crossentropy": 1.5220972299575806,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.578125,
      "loss/idx": 0.0,
      "loss/logits": 0.23937611281871796,
      "step": 21
    },
    {
      "epoch": 0.00018131320207356372,
      "grad_norm": 32.25,
      "grad_norm_var": 17021.051497395834,
      "learning_rate": 5e-05,
      "loss": 1.636,
      "loss/crossentropy": 1.8798402547836304,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.3125,
      "loss/idx": 0.0,
      "loss/logits": 0.32345157861709595,
      "step": 22
    },
    {
      "epoch": 0.0001895547112587257,
      "grad_norm": 31.25,
      "grad_norm_var": 17761.729622395833,
      "learning_rate": 5e-05,
      "loss": 1.5306,
      "loss/crossentropy": 3.0712087154388428,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.171875,
      "loss/idx": 0.0,
      "loss/logits": 0.3587738275527954,
      "step": 23
    },
    {
      "epoch": 0.00019779622044388767,
      "grad_norm": 13.375,
      "grad_norm_var": 13976.939583333333,
      "learning_rate": 5e-05,
      "loss": 1.0326,
      "loss/crossentropy": 2.2200183868408203,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.8125,
      "loss/idx": 0.0,
      "loss/logits": 0.2200760841369629,
      "step": 24
    },
    {
      "epoch": 0.00020603772962904968,
      "grad_norm": 28.125,
      "grad_norm_var": 14466.229622395833,
      "learning_rate": 5e-05,
      "loss": 1.509,
      "loss/crossentropy": 3.206345319747925,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.1484375,
      "loss/idx": 0.0,
      "loss/logits": 0.3605613112449646,
      "step": 25
    },
    {
      "epoch": 0.00021427923881421165,
      "grad_norm": 153.0,
      "grad_norm_var": 14529.862434895833,
      "learning_rate": 5e-05,
      "loss": 2.1474,
      "loss/crossentropy": 1.5313490629196167,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.765625,
      "loss/idx": 0.0,
      "loss/logits": 0.38178950548171997,
      "step": 26
    },
    {
      "epoch": 0.00022252074799937365,
      "grad_norm": 94.0,
      "grad_norm_var": 13366.093684895834,
      "learning_rate": 5e-05,
      "loss": 3.417,
      "loss/crossentropy": 1.551514744758606,
      "loss/dist_ce": 0.0,
      "loss/hidden": 2.75,
      "loss/idx": 0.0,
      "loss/logits": 0.6670438051223755,
      "step": 27
    },
    {
      "epoch": 0.00023076225718453563,
      "grad_norm": 268.0,
      "grad_norm_var": 14865.165559895833,
      "learning_rate": 5e-05,
      "loss": 1.9003,
      "loss/crossentropy": 3.108414649963379,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.421875,
      "loss/idx": 0.0,
      "loss/logits": 0.4784301221370697,
      "step": 28
    },
    {
      "epoch": 0.00023900376636969763,
      "grad_norm": 34.25,
      "grad_norm_var": 15186.259309895833,
      "learning_rate": 5e-05,
      "loss": 1.0626,
      "loss/crossentropy": 3.3259568214416504,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.81640625,
      "loss/idx": 0.0,
      "loss/logits": 0.24623815715312958,
      "step": 29
    },
    {
      "epoch": 0.00024724527555485963,
      "grad_norm": 167.0,
      "grad_norm_var": 7576.8728515625,
      "learning_rate": 5e-05,
      "loss": 1.4178,
      "loss/crossentropy": 1.5920592546463013,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.28125,
      "loss/idx": 0.0,
      "loss/logits": 0.13655498623847961,
      "step": 30
    },
    {
      "epoch": 0.0002554867847400216,
      "grad_norm": 12.6875,
      "grad_norm_var": 8024.979931640625,
      "learning_rate": 5e-05,
      "loss": 0.9625,
      "loss/crossentropy": 2.868499517440796,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.7421875,
      "loss/idx": 0.0,
      "loss/logits": 0.2203603982925415,
      "step": 31
    },
    {
      "epoch": 0.0002637282939251836,
      "grad_norm": 49.5,
      "grad_norm_var": 4940.166650390625,
      "learning_rate": 5e-05,
      "loss": 1.0668,
      "loss/crossentropy": 2.660956859588623,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.8359375,
      "loss/idx": 0.0,
      "loss/logits": 0.23084667325019836,
      "step": 32
    },
    {
      "epoch": 0.0002719698031103456,
      "grad_norm": 18.875,
      "grad_norm_var": 5167.097639973958,
      "learning_rate": 5e-05,
      "loss": 0.9463,
      "loss/crossentropy": 1.6037225723266602,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.8125,
      "loss/idx": 0.0,
      "loss/logits": 0.13378173112869263,
      "step": 33
    },
    {
      "epoch": 0.00028021131229550753,
      "grad_norm": 18.75,
      "grad_norm_var": 5067.703499348959,
      "learning_rate": 5e-05,
      "loss": 1.0141,
      "loss/crossentropy": 1.0409276485443115,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.84375,
      "loss/idx": 0.0,
      "loss/logits": 0.1703900545835495,
      "step": 34
    },
    {
      "epoch": 0.00028845282148066954,
      "grad_norm": 16.5,
      "grad_norm_var": 5142.032275390625,
      "learning_rate": 5e-05,
      "loss": 0.9889,
      "loss/crossentropy": 1.5536582469940186,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.8359375,
      "loss/idx": 0.0,
      "loss/logits": 0.1529390513896942,
      "step": 35
    },
    {
      "epoch": 0.00029669433066583154,
      "grad_norm": 9.8125,
      "grad_norm_var": 5335.719205729167,
      "learning_rate": 5e-05,
      "loss": 0.8687,
      "loss/crossentropy": 2.7224836349487305,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.671875,
      "loss/idx": 0.0,
      "loss/logits": 0.19684143364429474,
      "step": 36
    },
    {
      "epoch": 0.00030493583985099354,
      "grad_norm": 7.125,
      "grad_norm_var": 5527.603645833334,
      "learning_rate": 5e-05,
      "loss": 0.5503,
      "loss/crossentropy": 2.5596024990081787,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.4296875,
      "loss/idx": 0.0,
      "loss/logits": 0.12058012187480927,
      "step": 37
    },
    {
      "epoch": 0.0003131773490361555,
      "grad_norm": 13.1875,
      "grad_norm_var": 5619.972379557292,
      "learning_rate": 5e-05,
      "loss": 0.8248,
      "loss/crossentropy": 2.8074352741241455,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.62109375,
      "loss/idx": 0.0,
      "loss/logits": 0.2037278115749359,
      "step": 38
    },
    {
      "epoch": 0.0003214188582213175,
      "grad_norm": 37.75,
      "grad_norm_var": 5599.026806640625,
      "learning_rate": 5e-05,
      "loss": 1.3462,
      "loss/crossentropy": 1.5375018119812012,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.15625,
      "loss/idx": 0.0,
      "loss/logits": 0.18997883796691895,
      "step": 39
    },
    {
      "epoch": 0.0003296603674064795,
      "grad_norm": 7.28125,
      "grad_norm_var": 5638.313244628906,
      "learning_rate": 5e-05,
      "loss": 0.6618,
      "loss/crossentropy": 2.4615395069122314,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.51171875,
      "loss/idx": 0.0,
      "loss/logits": 0.15010175108909607,
      "step": 40
    },
    {
      "epoch": 0.00033790187659164144,
      "grad_norm": 68.5,
      "grad_norm_var": 5576.730855305989,
      "learning_rate": 5e-05,
      "loss": 0.7963,
      "loss/crossentropy": 1.1309521198272705,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.6796875,
      "loss/idx": 0.0,
      "loss/logits": 0.11660157144069672,
      "step": 41
    },
    {
      "epoch": 0.00034614338577680344,
      "grad_norm": 10.0625,
      "grad_norm_var": 5100.57030843099,
      "learning_rate": 5e-05,
      "loss": 0.6657,
      "loss/crossentropy": 2.225135326385498,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.54296875,
      "loss/idx": 0.0,
      "loss/logits": 0.12272368371486664,
      "step": 42
    },
    {
      "epoch": 0.00035438489496196544,
      "grad_norm": 15.125,
      "grad_norm_var": 5048.541564941406,
      "learning_rate": 5e-05,
      "loss": 0.7119,
      "loss/crossentropy": 0.907244861125946,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.6328125,
      "loss/idx": 0.0,
      "loss/logits": 0.07912808656692505,
      "step": 43
    },
    {
      "epoch": 0.00036262640414712745,
      "grad_norm": 11.25,
      "grad_norm_var": 1608.158426920573,
      "learning_rate": 5e-05,
      "loss": 0.757,
      "loss/crossentropy": 1.7073473930358887,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.62109375,
      "loss/idx": 0.0,
      "loss/logits": 0.1358700692653656,
      "step": 44
    },
    {
      "epoch": 0.0003708679133322894,
      "grad_norm": 8.3125,
      "grad_norm_var": 1639.323954264323,
      "learning_rate": 5e-05,
      "loss": 0.7863,
      "loss/crossentropy": 2.7458887100219727,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.62890625,
      "loss/idx": 0.0,
      "loss/logits": 0.15743763744831085,
      "step": 45
    },
    {
      "epoch": 0.0003791094225174514,
      "grad_norm": 7.15625,
      "grad_norm_var": 305.3570963541667,
      "learning_rate": 5e-05,
      "loss": 0.7888,
      "loss/crossentropy": 3.2708899974823,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.58984375,
      "loss/idx": 0.0,
      "loss/logits": 0.19896197319030762,
      "step": 46
    },
    {
      "epoch": 0.0003873509317026134,
      "grad_norm": 95.5,
      "grad_norm_var": 658.8413899739584,
      "learning_rate": 5e-05,
      "loss": 1.2412,
      "loss/crossentropy": 2.0868113040924072,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.0,
      "loss/idx": 0.0,
      "loss/logits": 0.24115484952926636,
      "step": 47
    },
    {
      "epoch": 0.00039559244088777535,
      "grad_norm": 7.53125,
      "grad_norm_var": 629.9714803059895,
      "learning_rate": 5e-05,
      "loss": 0.7909,
      "loss/crossentropy": 2.5569632053375244,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.6171875,
      "loss/idx": 0.0,
      "loss/logits": 0.17373064160346985,
      "step": 48
    },
    {
      "epoch": 0.00040383395007293735,
      "grad_norm": 7.125,
      "grad_norm_var": 643.5665974934896,
      "learning_rate": 5e-05,
      "loss": 0.5926,
      "loss/crossentropy": 1.3575685024261475,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.486328125,
      "loss/idx": 0.0,
      "loss/logits": 0.10628513246774673,
      "step": 49
    },
    {
      "epoch": 0.00041207545925809935,
      "grad_norm": 14.0625,
      "grad_norm_var": 646.5402303059896,
      "learning_rate": 5e-05,
      "loss": 0.5641,
      "loss/crossentropy": 1.111220359802246,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.486328125,
      "loss/idx": 0.0,
      "loss/logits": 0.07779324799776077,
      "step": 50
    },
    {
      "epoch": 0.00042031696844326135,
      "grad_norm": 5.375,
      "grad_norm_var": 660.9766560872396,
      "learning_rate": 5e-05,
      "loss": 0.622,
      "loss/crossentropy": 2.907522678375244,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.498046875,
      "loss/idx": 0.0,
      "loss/logits": 0.12399697303771973,
      "step": 51
    },
    {
      "epoch": 0.0004285584776284233,
      "grad_norm": 9.75,
      "grad_norm_var": 661.0644816080729,
      "learning_rate": 5e-05,
      "loss": 0.5746,
      "loss/crossentropy": 2.72662353515625,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.4453125,
      "loss/idx": 0.0,
      "loss/logits": 0.12924730777740479,
      "step": 52
    },
    {
      "epoch": 0.0004367999868135853,
      "grad_norm": 4.9375,
      "grad_norm_var": 665.2116170247396,
      "learning_rate": 5e-05,
      "loss": 0.6226,
      "loss/crossentropy": 2.3917365074157715,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.498046875,
      "loss/idx": 0.0,
      "loss/logits": 0.1245586946606636,
      "step": 53
    },
    {
      "epoch": 0.0004450414959987473,
      "grad_norm": 28.0,
      "grad_norm_var": 665.1113240559896,
      "learning_rate": 5e-05,
      "loss": 0.8407,
      "loss/crossentropy": 2.7228264808654785,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.65234375,
      "loss/idx": 0.0,
      "loss/logits": 0.18836885690689087,
      "step": 54
    },
    {
      "epoch": 0.00045328300518390925,
      "grad_norm": 32.5,
      "grad_norm_var": 655.1841756184896,
      "learning_rate": 5e-05,
      "loss": 0.6963,
      "loss/crossentropy": 2.543640375137329,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.56640625,
      "loss/idx": 0.0,
      "loss/logits": 0.12986385822296143,
      "step": 55
    },
    {
      "epoch": 0.00046152451436907126,
      "grad_norm": 16.875,
      "grad_norm_var": 643.6704264322917,
      "learning_rate": 5e-05,
      "loss": 0.7344,
      "loss/crossentropy": 1.649795413017273,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.609375,
      "loss/idx": 0.0,
      "loss/logits": 0.12504054605960846,
      "step": 56
    },
    {
      "epoch": 0.00046976602355423326,
      "grad_norm": 28.0,
      "grad_norm_var": 491.7321451822917,
      "learning_rate": 5e-05,
      "loss": 0.7995,
      "loss/crossentropy": 1.5515227317810059,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.6796875,
      "loss/idx": 0.0,
      "loss/logits": 0.11983367055654526,
      "step": 57
    },
    {
      "epoch": 0.00047800753273939526,
      "grad_norm": 4.15625,
      "grad_norm_var": 500.8306925455729,
      "learning_rate": 5e-05,
      "loss": 0.4793,
      "loss/crossentropy": 1.7439237833023071,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.388671875,
      "loss/idx": 0.0,
      "loss/logits": 0.09059557318687439,
      "step": 58
    },
    {
      "epoch": 0.0004862490419245572,
      "grad_norm": 14.5,
      "grad_norm_var": 501.1345662434896,
      "learning_rate": 5e-05,
      "loss": 1.0179,
      "loss/crossentropy": 1.387863039970398,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.8828125,
      "loss/idx": 0.0,
      "loss/logits": 0.1351165473461151,
      "step": 59
    },
    {
      "epoch": 0.0004944905511097193,
      "grad_norm": 8.0625,
      "grad_norm_var": 504.82509358723956,
      "learning_rate": 5e-05,
      "loss": 0.5969,
      "loss/crossentropy": 1.6710844039916992,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.490234375,
      "loss/idx": 0.0,
      "loss/logits": 0.10665580630302429,
      "step": 60
    },
    {
      "epoch": 0.0005027320602948812,
      "grad_norm": 18.0,
      "grad_norm_var": 497.86724853515625,
      "learning_rate": 5e-05,
      "loss": 0.5408,
      "loss/crossentropy": 1.0266728401184082,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.47265625,
      "loss/idx": 0.0,
      "loss/logits": 0.068178191781044,
      "step": 61
    },
    {
      "epoch": 0.0005109735694800432,
      "grad_norm": 7.46875,
      "grad_norm_var": 497.38629150390625,
      "learning_rate": 5e-05,
      "loss": 0.8584,
      "loss/crossentropy": 2.9015908241271973,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.6796875,
      "loss/idx": 0.0,
      "loss/logits": 0.1787503957748413,
      "step": 62
    },
    {
      "epoch": 0.0005192150786652052,
      "grad_norm": 7.84375,
      "grad_norm_var": 81.943603515625,
      "learning_rate": 5e-05,
      "loss": 0.4871,
      "loss/crossentropy": 1.605463981628418,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.40234375,
      "loss/idx": 0.0,
      "loss/logits": 0.08476820588111877,
      "step": 63
    },
    {
      "epoch": 0.0005274565878503672,
      "grad_norm": 6.3125,
      "grad_norm_var": 82.98795166015626,
      "learning_rate": 5e-05,
      "loss": 0.4591,
      "loss/crossentropy": 1.7012584209442139,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.373046875,
      "loss/idx": 0.0,
      "loss/logits": 0.0860566645860672,
      "step": 64
    },
    {
      "epoch": 0.0005356980970355292,
      "grad_norm": 8.625,
      "grad_norm_var": 81.89146728515625,
      "learning_rate": 5e-05,
      "loss": 0.513,
      "loss/crossentropy": 1.6209317445755005,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.416015625,
      "loss/idx": 0.0,
      "loss/logits": 0.09696009755134583,
      "step": 65
    },
    {
      "epoch": 0.0005439396062206912,
      "grad_norm": 5.0,
      "grad_norm_var": 86.22919514973958,
      "learning_rate": 5e-05,
      "loss": 0.4936,
      "loss/crossentropy": 2.992037773132324,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.37890625,
      "loss/idx": 0.0,
      "loss/logits": 0.114667147397995,
      "step": 66
    },
    {
      "epoch": 0.0005521811154058532,
      "grad_norm": 10.5625,
      "grad_norm_var": 82.74924723307292,
      "learning_rate": 5e-05,
      "loss": 0.9616,
      "loss/crossentropy": 2.2757253646850586,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.75,
      "loss/idx": 0.0,
      "loss/logits": 0.21162353456020355,
      "step": 67
    },
    {
      "epoch": 0.0005604226245910151,
      "grad_norm": 6.0625,
      "grad_norm_var": 85.27672119140625,
      "learning_rate": 5e-05,
      "loss": 0.3899,
      "loss/crossentropy": 0.7420970797538757,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.34765625,
      "loss/idx": 0.0,
      "loss/logits": 0.04225603863596916,
      "step": 68
    },
    {
      "epoch": 0.0005686641337761771,
      "grad_norm": 4.78125,
      "grad_norm_var": 85.44479166666666,
      "learning_rate": 5e-05,
      "loss": 0.3729,
      "loss/crossentropy": 1.957132339477539,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.296875,
      "loss/idx": 0.0,
      "loss/logits": 0.07599128782749176,
      "step": 69
    },
    {
      "epoch": 0.0005769056429613391,
      "grad_norm": 8.875,
      "grad_norm_var": 69.85592447916666,
      "learning_rate": 5e-05,
      "loss": 0.5605,
      "loss/crossentropy": 2.908198356628418,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.4453125,
      "loss/idx": 0.0,
      "loss/logits": 0.1151949018239975,
      "step": 70
    },
    {
      "epoch": 0.0005851471521465011,
      "grad_norm": 6.125,
      "grad_norm_var": 40.280208333333334,
      "learning_rate": 5e-05,
      "loss": 0.4273,
      "loss/crossentropy": 1.8814876079559326,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.33984375,
      "loss/idx": 0.0,
      "loss/logits": 0.08749841153621674,
      "step": 71
    },
    {
      "epoch": 0.0005933886613316631,
      "grad_norm": 3.625,
      "grad_norm_var": 39.245052083333334,
      "learning_rate": 5e-05,
      "loss": 0.3375,
      "loss/crossentropy": 1.5110681056976318,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.275390625,
      "loss/idx": 0.0,
      "loss/logits": 0.062085069715976715,
      "step": 72
    },
    {
      "epoch": 0.0006016301705168251,
      "grad_norm": 4.09375,
      "grad_norm_var": 15.198726399739583,
      "learning_rate": 5e-05,
      "loss": 0.3922,
      "loss/crossentropy": 2.652179479598999,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.306640625,
      "loss/idx": 0.0,
      "loss/logits": 0.085569366812706,
      "step": 73
    },
    {
      "epoch": 0.0006098716797019871,
      "grad_norm": 12.0,
      "grad_norm_var": 15.279410807291667,
      "learning_rate": 5e-05,
      "loss": 0.7232,
      "loss/crossentropy": 1.3632968664169312,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.625,
      "loss/idx": 0.0,
      "loss/logits": 0.09823663532733917,
      "step": 74
    },
    {
      "epoch": 0.000618113188887149,
      "grad_norm": 3.15625,
      "grad_norm_var": 13.862919108072917,
      "learning_rate": 5e-05,
      "loss": 0.3533,
      "loss/crossentropy": 1.3768854141235352,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.30078125,
      "loss/idx": 0.0,
      "loss/logits": 0.05253131687641144,
      "step": 75
    },
    {
      "epoch": 0.000626354698072311,
      "grad_norm": 4.5,
      "grad_norm_var": 14.406571451822916,
      "learning_rate": 5e-05,
      "loss": 0.5053,
      "loss/crossentropy": 2.9618265628814697,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.373046875,
      "loss/idx": 0.0,
      "loss/logits": 0.13229554891586304,
      "step": 76
    },
    {
      "epoch": 0.000634596207257473,
      "grad_norm": 3.96875,
      "grad_norm_var": 6.720442708333334,
      "learning_rate": 5e-05,
      "loss": 0.4483,
      "loss/crossentropy": 1.52455472946167,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.3828125,
      "loss/idx": 0.0,
      "loss/logits": 0.065483957529068,
      "step": 77
    },
    {
      "epoch": 0.000642837716442635,
      "grad_norm": 3.40625,
      "grad_norm_var": 7.193343098958334,
      "learning_rate": 5e-05,
      "loss": 0.3286,
      "loss/crossentropy": 2.478041648864746,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.255859375,
      "loss/idx": 0.0,
      "loss/logits": 0.0727752074599266,
      "step": 78
    },
    {
      "epoch": 0.000651079225627797,
      "grad_norm": 3.765625,
      "grad_norm_var": 7.330077107747396,
      "learning_rate": 5e-05,
      "loss": 0.382,
      "loss/crossentropy": 1.4515001773834229,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.31640625,
      "loss/idx": 0.0,
      "loss/logits": 0.06562215089797974,
      "step": 79
    },
    {
      "epoch": 0.000659320734812959,
      "grad_norm": 3.265625,
      "grad_norm_var": 7.754378255208334,
      "learning_rate": 5e-05,
      "loss": 0.4323,
      "loss/crossentropy": 1.748592495918274,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.34375,
      "loss/idx": 0.0,
      "loss/logits": 0.08855777978897095,
      "step": 80
    },
    {
      "epoch": 0.000667562243998121,
      "grad_norm": 11.9375,
      "grad_norm_var": 9.71513671875,
      "learning_rate": 5e-05,
      "loss": 0.465,
      "loss/crossentropy": 2.6704611778259277,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.369140625,
      "loss/idx": 0.0,
      "loss/logits": 0.09580960124731064,
      "step": 81
    },
    {
      "epoch": 0.0006758037531832829,
      "grad_norm": 23.0,
      "grad_norm_var": 27.69638671875,
      "learning_rate": 5e-05,
      "loss": 0.8228,
      "loss/crossentropy": 0.5576035976409912,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.66796875,
      "loss/idx": 0.0,
      "loss/logits": 0.1548667550086975,
      "step": 82
    },
    {
      "epoch": 0.0006840452623684449,
      "grad_norm": 5.59375,
      "grad_norm_var": 26.92584228515625,
      "learning_rate": 5e-05,
      "loss": 0.4884,
      "loss/crossentropy": 0.8048841953277588,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.43359375,
      "loss/idx": 0.0,
      "loss/logits": 0.05478814244270325,
      "step": 83
    },
    {
      "epoch": 0.0006922867715536069,
      "grad_norm": 4.96875,
      "grad_norm_var": 27.102294921875,
      "learning_rate": 5e-05,
      "loss": 0.5603,
      "loss/crossentropy": 2.0498743057250977,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.46875,
      "loss/idx": 0.0,
      "loss/logits": 0.0915648490190506,
      "step": 84
    },
    {
      "epoch": 0.0007005282807387689,
      "grad_norm": 7.8125,
      "grad_norm_var": 26.90455322265625,
      "learning_rate": 5e-05,
      "loss": 0.5343,
      "loss/crossentropy": 1.643184781074524,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.44140625,
      "loss/idx": 0.0,
      "loss/logits": 0.09292187541723251,
      "step": 85
    },
    {
      "epoch": 0.0007087697899239309,
      "grad_norm": 5.34375,
      "grad_norm_var": 26.745003255208335,
      "learning_rate": 5e-05,
      "loss": 0.537,
      "loss/crossentropy": 2.662973165512085,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.439453125,
      "loss/idx": 0.0,
      "loss/logits": 0.09757896512746811,
      "step": 86
    },
    {
      "epoch": 0.0007170112991090929,
      "grad_norm": 2.4375,
      "grad_norm_var": 27.857975260416666,
      "learning_rate": 5e-05,
      "loss": 0.2826,
      "loss/crossentropy": 1.4633480310440063,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.236328125,
      "loss/idx": 0.0,
      "loss/logits": 0.0462251678109169,
      "step": 87
    },
    {
      "epoch": 0.0007252528082942549,
      "grad_norm": 7.21875,
      "grad_norm_var": 27.32125244140625,
      "learning_rate": 5e-05,
      "loss": 0.7004,
      "loss/crossentropy": 2.25626277923584,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.55859375,
      "loss/idx": 0.0,
      "loss/logits": 0.14179712533950806,
      "step": 88
    },
    {
      "epoch": 0.0007334943174794168,
      "grad_norm": 10.0625,
      "grad_norm_var": 27.510107421875,
      "learning_rate": 5e-05,
      "loss": 0.341,
      "loss/crossentropy": 2.072801113128662,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.275390625,
      "loss/idx": 0.0,
      "loss/logits": 0.0656304880976677,
      "step": 89
    },
    {
      "epoch": 0.0007417358266645788,
      "grad_norm": 3.46875,
      "grad_norm_var": 26.40260009765625,
      "learning_rate": 5e-05,
      "loss": 0.3528,
      "loss/crossentropy": 1.6771039962768555,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.29296875,
      "loss/idx": 0.0,
      "loss/logits": 0.059821829199790955,
      "step": 90
    },
    {
      "epoch": 0.0007499773358497408,
      "grad_norm": 2.640625,
      "grad_norm_var": 26.648696899414062,
      "learning_rate": 5e-05,
      "loss": 0.2959,
      "loss/crossentropy": 1.3347995281219482,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.24609375,
      "loss/idx": 0.0,
      "loss/logits": 0.049777351319789886,
      "step": 91
    },
    {
      "epoch": 0.0007582188450349028,
      "grad_norm": 5.21875,
      "grad_norm_var": 26.492967732747395,
      "learning_rate": 5e-05,
      "loss": 0.4277,
      "loss/crossentropy": 2.2866933345794678,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.34765625,
      "loss/idx": 0.0,
      "loss/logits": 0.07999749481678009,
      "step": 92
    },
    {
      "epoch": 0.0007664603542200648,
      "grad_norm": 20.375,
      "grad_norm_var": 37.763719685872395,
      "learning_rate": 5e-05,
      "loss": 0.592,
      "loss/crossentropy": 0.5346123576164246,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.52734375,
      "loss/idx": 0.0,
      "loss/logits": 0.06467436254024506,
      "step": 93
    },
    {
      "epoch": 0.0007747018634052268,
      "grad_norm": 5.28125,
      "grad_norm_var": 36.951952107747395,
      "learning_rate": 5e-05,
      "loss": 0.5485,
      "loss/crossentropy": 1.4174734354019165,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.46484375,
      "loss/idx": 0.0,
      "loss/logits": 0.08362259715795517,
      "step": 94
    },
    {
      "epoch": 0.0007829433725903888,
      "grad_norm": 3.5,
      "grad_norm_var": 37.093912760416664,
      "learning_rate": 5e-05,
      "loss": 0.3081,
      "loss/crossentropy": 1.5907094478607178,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25390625,
      "loss/idx": 0.0,
      "loss/logits": 0.05422712862491608,
      "step": 95
    },
    {
      "epoch": 0.0007911848817755507,
      "grad_norm": 3.546875,
      "grad_norm_var": 36.93508707682292,
      "learning_rate": 5e-05,
      "loss": 0.3014,
      "loss/crossentropy": 1.4840497970581055,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25,
      "loss/idx": 0.0,
      "loss/logits": 0.05143030732870102,
      "step": 96
    },
    {
      "epoch": 0.0007994263909607127,
      "grad_norm": 6.03125,
      "grad_norm_var": 35.73922526041667,
      "learning_rate": 5e-05,
      "loss": 0.5235,
      "loss/crossentropy": 1.9094655513763428,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.416015625,
      "loss/idx": 0.0,
      "loss/logits": 0.10748349130153656,
      "step": 97
    },
    {
      "epoch": 0.0008076679001458747,
      "grad_norm": 5.53125,
      "grad_norm_var": 18.19996337890625,
      "learning_rate": 5e-05,
      "loss": 0.3909,
      "loss/crossentropy": 1.4463390111923218,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.328125,
      "loss/idx": 0.0,
      "loss/logits": 0.06276652216911316,
      "step": 98
    },
    {
      "epoch": 0.0008159094093310367,
      "grad_norm": 7.03125,
      "grad_norm_var": 18.214937337239583,
      "learning_rate": 5e-05,
      "loss": 0.5097,
      "loss/crossentropy": 2.1369168758392334,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.3984375,
      "loss/idx": 0.0,
      "loss/logits": 0.11129927635192871,
      "step": 99
    },
    {
      "epoch": 0.0008241509185161987,
      "grad_norm": 2.28125,
      "grad_norm_var": 19.135965983072918,
      "learning_rate": 5e-05,
      "loss": 0.2675,
      "loss/crossentropy": 1.7142083644866943,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.22265625,
      "loss/idx": 0.0,
      "loss/logits": 0.044855352491140366,
      "step": 100
    },
    {
      "epoch": 0.0008323924277013607,
      "grad_norm": 5.25,
      "grad_norm_var": 18.965132649739584,
      "learning_rate": 5e-05,
      "loss": 0.3094,
      "loss/crossentropy": 0.9302163124084473,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.267578125,
      "loss/idx": 0.0,
      "loss/logits": 0.041776590049266815,
      "step": 101
    },
    {
      "epoch": 0.0008406339368865227,
      "grad_norm": 9.9375,
      "grad_norm_var": 19.911995442708335,
      "learning_rate": 5e-05,
      "loss": 0.4483,
      "loss/crossentropy": 2.0367283821105957,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.36328125,
      "loss/idx": 0.0,
      "loss/logits": 0.08506779372692108,
      "step": 102
    },
    {
      "epoch": 0.0008488754460716846,
      "grad_norm": 2.984375,
      "grad_norm_var": 19.65354715983073,
      "learning_rate": 5e-05,
      "loss": 0.3074,
      "loss/crossentropy": 2.5578417778015137,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25,
      "loss/idx": 0.0,
      "loss/logits": 0.05742755904793739,
      "step": 103
    },
    {
      "epoch": 0.0008571169552568466,
      "grad_norm": 3.96875,
      "grad_norm_var": 19.903644816080728,
      "learning_rate": 5e-05,
      "loss": 0.3362,
      "loss/crossentropy": 1.235908031463623,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.28515625,
      "loss/idx": 0.0,
      "loss/logits": 0.05100230872631073,
      "step": 104
    },
    {
      "epoch": 0.0008653584644420086,
      "grad_norm": 13.1875,
      "grad_norm_var": 22.177814737955728,
      "learning_rate": 5e-05,
      "loss": 0.5365,
      "loss/crossentropy": 1.3280326128005981,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.4765625,
      "loss/idx": 0.0,
      "loss/logits": 0.05990615114569664,
      "step": 105
    },
    {
      "epoch": 0.0008735999736271706,
      "grad_norm": 3.640625,
      "grad_norm_var": 22.11558837890625,
      "learning_rate": 5e-05,
      "loss": 0.3851,
      "loss/crossentropy": 2.764561414718628,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.296875,
      "loss/idx": 0.0,
      "loss/logits": 0.08821941912174225,
      "step": 106
    },
    {
      "epoch": 0.0008818414828123326,
      "grad_norm": 5.875,
      "grad_norm_var": 21.201919555664062,
      "learning_rate": 5e-05,
      "loss": 0.3966,
      "loss/crossentropy": 2.7057063579559326,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.31640625,
      "loss/idx": 0.0,
      "loss/logits": 0.08024018257856369,
      "step": 107
    },
    {
      "epoch": 0.0008900829919974946,
      "grad_norm": 3.375,
      "grad_norm_var": 21.723835245768228,
      "learning_rate": 5e-05,
      "loss": 0.3745,
      "loss/crossentropy": 1.9366930723190308,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2890625,
      "loss/idx": 0.0,
      "loss/logits": 0.08542559295892715,
      "step": 108
    },
    {
      "epoch": 0.0008983245011826566,
      "grad_norm": 3.796875,
      "grad_norm_var": 7.927079264322916,
      "learning_rate": 5e-05,
      "loss": 0.3125,
      "loss/crossentropy": 2.499528408050537,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25,
      "loss/idx": 0.0,
      "loss/logits": 0.062451932579278946,
      "step": 109
    },
    {
      "epoch": 0.0009065660103678185,
      "grad_norm": 4.59375,
      "grad_norm_var": 7.960738118489584,
      "learning_rate": 5e-05,
      "loss": 0.3585,
      "loss/crossentropy": 2.2361199855804443,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.28515625,
      "loss/idx": 0.0,
      "loss/logits": 0.07333969324827194,
      "step": 110
    },
    {
      "epoch": 0.0009148075195529805,
      "grad_norm": 2.671875,
      "grad_norm_var": 8.200495402018229,
      "learning_rate": 5e-05,
      "loss": 0.2519,
      "loss/crossentropy": 1.3813279867172241,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.21484375,
      "loss/idx": 0.0,
      "loss/logits": 0.03708701953291893,
      "step": 111
    },
    {
      "epoch": 0.0009230490287381425,
      "grad_norm": 6.875,
      "grad_norm_var": 8.145243326822916,
      "learning_rate": 5e-05,
      "loss": 0.6369,
      "loss/crossentropy": 0.7904279232025146,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.55859375,
      "loss/idx": 0.0,
      "loss/logits": 0.07834139466285706,
      "step": 112
    },
    {
      "epoch": 0.0009312905379233045,
      "grad_norm": 26.625,
      "grad_norm_var": 36.27662760416667,
      "learning_rate": 5e-05,
      "loss": 0.811,
      "loss/crossentropy": 1.7555081844329834,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.6171875,
      "loss/idx": 0.0,
      "loss/logits": 0.19379198551177979,
      "step": 113
    },
    {
      "epoch": 0.0009395320471084665,
      "grad_norm": 20.875,
      "grad_norm_var": 48.545633951822914,
      "learning_rate": 5e-05,
      "loss": 0.5722,
      "loss/crossentropy": 2.7940163612365723,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.455078125,
      "loss/idx": 0.0,
      "loss/logits": 0.11716997623443604,
      "step": 114
    },
    {
      "epoch": 0.0009477735562936285,
      "grad_norm": 4.1875,
      "grad_norm_var": 49.299153645833336,
      "learning_rate": 5e-05,
      "loss": 0.3537,
      "loss/crossentropy": 2.1036393642425537,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.291015625,
      "loss/idx": 0.0,
      "loss/logits": 0.06271170824766159,
      "step": 115
    },
    {
      "epoch": 0.0009560150654787905,
      "grad_norm": 2.84375,
      "grad_norm_var": 48.926936848958334,
      "learning_rate": 5e-05,
      "loss": 0.2983,
      "loss/crossentropy": 1.6935715675354004,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25390625,
      "loss/idx": 0.0,
      "loss/logits": 0.04436497390270233,
      "step": 116
    },
    {
      "epoch": 0.0009642565746639524,
      "grad_norm": 2.1875,
      "grad_norm_var": 50.4494140625,
      "learning_rate": 5e-05,
      "loss": 0.2826,
      "loss/crossentropy": 0.9073331356048584,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25,
      "loss/idx": 0.0,
      "loss/logits": 0.032610610127449036,
      "step": 117
    },
    {
      "epoch": 0.0009724980838491144,
      "grad_norm": 2.203125,
      "grad_norm_var": 51.52145080566406,
      "learning_rate": 5e-05,
      "loss": 0.1972,
      "loss/crossentropy": 1.5172605514526367,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1669921875,
      "loss/idx": 0.0,
      "loss/logits": 0.030240532010793686,
      "step": 118
    },
    {
      "epoch": 0.0009807395930342764,
      "grad_norm": 3.609375,
      "grad_norm_var": 51.222215779622395,
      "learning_rate": 5e-05,
      "loss": 0.3043,
      "loss/crossentropy": 1.3851293325424194,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2578125,
      "loss/idx": 0.0,
      "loss/logits": 0.04644084721803665,
      "step": 119
    },
    {
      "epoch": 0.0009889811022194385,
      "grad_norm": 11.5,
      "grad_norm_var": 51.8164784749349,
      "learning_rate": 5e-05,
      "loss": 0.3607,
      "loss/crossentropy": 1.786331057548523,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.30078125,
      "loss/idx": 0.0,
      "loss/logits": 0.059897445142269135,
      "step": 120
    },
    {
      "epoch": 0.0009972226114046004,
      "grad_norm": 3.421875,
      "grad_norm_var": 50.212398274739584,
      "learning_rate": 5e-05,
      "loss": 0.3368,
      "loss/crossentropy": 1.3703113794326782,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.283203125,
      "loss/idx": 0.0,
      "loss/logits": 0.05364468693733215,
      "step": 121
    },
    {
      "epoch": 0.0010054641205897623,
      "grad_norm": 5.6875,
      "grad_norm_var": 49.62085673014323,
      "learning_rate": 5e-05,
      "loss": 0.3796,
      "loss/crossentropy": 1.5540196895599365,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.31640625,
      "loss/idx": 0.0,
      "loss/logits": 0.06318466365337372,
      "step": 122
    },
    {
      "epoch": 0.0010137056297749244,
      "grad_norm": 3.15625,
      "grad_norm_var": 50.45276590983073,
      "learning_rate": 5e-05,
      "loss": 0.2844,
      "loss/crossentropy": 2.5752596855163574,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.224609375,
      "loss/idx": 0.0,
      "loss/logits": 0.05982211232185364,
      "step": 123
    },
    {
      "epoch": 0.0010219471389600863,
      "grad_norm": 7.9375,
      "grad_norm_var": 49.715518188476565,
      "learning_rate": 5e-05,
      "loss": 0.6157,
      "loss/crossentropy": 2.424745798110962,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.47265625,
      "loss/idx": 0.0,
      "loss/logits": 0.14306676387786865,
      "step": 124
    },
    {
      "epoch": 0.0010301886481452484,
      "grad_norm": 13.0625,
      "grad_norm_var": 51.110791015625,
      "learning_rate": 5e-05,
      "loss": 0.3906,
      "loss/crossentropy": 1.6216858625411987,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.32421875,
      "loss/idx": 0.0,
      "loss/logits": 0.06637328118085861,
      "step": 125
    },
    {
      "epoch": 0.0010384301573304103,
      "grad_norm": 10.3125,
      "grad_norm_var": 50.87027587890625,
      "learning_rate": 5e-05,
      "loss": 0.4044,
      "loss/crossentropy": 2.009226083755493,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.32421875,
      "loss/idx": 0.0,
      "loss/logits": 0.08017371594905853,
      "step": 126
    },
    {
      "epoch": 0.0010466716665155724,
      "grad_norm": 2.734375,
      "grad_norm_var": 50.826558430989586,
      "learning_rate": 5e-05,
      "loss": 0.2593,
      "loss/crossentropy": 0.31721383333206177,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.240234375,
      "loss/idx": 0.0,
      "loss/logits": 0.019071679562330246,
      "step": 127
    },
    {
      "epoch": 0.0010549131757007343,
      "grad_norm": 9.0625,
      "grad_norm_var": 50.811747233072914,
      "learning_rate": 5e-05,
      "loss": 0.4044,
      "loss/crossentropy": 1.5959731340408325,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.3359375,
      "loss/idx": 0.0,
      "loss/logits": 0.06845791637897491,
      "step": 128
    },
    {
      "epoch": 0.0010631546848858962,
      "grad_norm": 6.53125,
      "grad_norm_var": 26.382666015625,
      "learning_rate": 5e-05,
      "loss": 0.404,
      "loss/crossentropy": 1.000110387802124,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.345703125,
      "loss/idx": 0.0,
      "loss/logits": 0.0582566112279892,
      "step": 129
    },
    {
      "epoch": 0.0010713961940710583,
      "grad_norm": 13.375,
      "grad_norm_var": 15.855322265625,
      "learning_rate": 5e-05,
      "loss": 0.4836,
      "loss/crossentropy": 1.4723174571990967,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.41015625,
      "loss/idx": 0.0,
      "loss/logits": 0.07343296706676483,
      "step": 130
    },
    {
      "epoch": 0.0010796377032562202,
      "grad_norm": 1.8359375,
      "grad_norm_var": 16.883135732014974,
      "learning_rate": 5e-05,
      "loss": 0.2167,
      "loss/crossentropy": 1.884359359741211,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.17578125,
      "loss/idx": 0.0,
      "loss/logits": 0.04091912880539894,
      "step": 131
    },
    {
      "epoch": 0.0010878792124413823,
      "grad_norm": 9.0625,
      "grad_norm_var": 16.503775787353515,
      "learning_rate": 5e-05,
      "loss": 0.335,
      "loss/crossentropy": 2.47468638420105,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.265625,
      "loss/idx": 0.0,
      "loss/logits": 0.06939947605133057,
      "step": 132
    },
    {
      "epoch": 0.0010961207216265442,
      "grad_norm": 2.28125,
      "grad_norm_var": 16.44910659790039,
      "learning_rate": 5e-05,
      "loss": 0.2479,
      "loss/crossentropy": 1.4188505411148071,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.208984375,
      "loss/idx": 0.0,
      "loss/logits": 0.03889765217900276,
      "step": 133
    },
    {
      "epoch": 0.0011043622308117063,
      "grad_norm": 3.453125,
      "grad_norm_var": 15.812143707275391,
      "learning_rate": 5e-05,
      "loss": 0.3702,
      "loss/crossentropy": 2.618537425994873,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.27734375,
      "loss/idx": 0.0,
      "loss/logits": 0.09288428723812103,
      "step": 134
    },
    {
      "epoch": 0.0011126037399968682,
      "grad_norm": 14.5,
      "grad_norm_var": 18.753179677327473,
      "learning_rate": 5e-05,
      "loss": 0.6568,
      "loss/crossentropy": 3.4983789920806885,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.5078125,
      "loss/idx": 0.0,
      "loss/logits": 0.14897578954696655,
      "step": 135
    },
    {
      "epoch": 0.0011208452491820301,
      "grad_norm": 3.078125,
      "grad_norm_var": 18.548115793863932,
      "learning_rate": 5e-05,
      "loss": 0.2164,
      "loss/crossentropy": 0.7671207189559937,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1875,
      "loss/idx": 0.0,
      "loss/logits": 0.028927473351359367,
      "step": 136
    },
    {
      "epoch": 0.0011290867583671922,
      "grad_norm": 3.015625,
      "grad_norm_var": 18.743755849202476,
      "learning_rate": 5e-05,
      "loss": 0.2917,
      "loss/crossentropy": 1.4987382888793945,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.240234375,
      "loss/idx": 0.0,
      "loss/logits": 0.051444459706544876,
      "step": 137
    },
    {
      "epoch": 0.0011373282675523541,
      "grad_norm": 2.515625,
      "grad_norm_var": 19.85060806274414,
      "learning_rate": 5e-05,
      "loss": 0.2295,
      "loss/crossentropy": 1.1994467973709106,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1982421875,
      "loss/idx": 0.0,
      "loss/logits": 0.03128223866224289,
      "step": 138
    },
    {
      "epoch": 0.0011455697767375162,
      "grad_norm": 11.625,
      "grad_norm_var": 20.42235895792643,
      "learning_rate": 5e-05,
      "loss": 0.3444,
      "loss/crossentropy": 1.7283226251602173,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.287109375,
      "loss/idx": 0.0,
      "loss/logits": 0.05732431262731552,
      "step": 139
    },
    {
      "epoch": 0.0011538112859226781,
      "grad_norm": 4.09375,
      "grad_norm_var": 20.941615549723306,
      "learning_rate": 5e-05,
      "loss": 0.3394,
      "loss/crossentropy": 2.3807051181793213,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.26171875,
      "loss/idx": 0.0,
      "loss/logits": 0.07771667838096619,
      "step": 140
    },
    {
      "epoch": 0.0011620527951078403,
      "grad_norm": 4.4375,
      "grad_norm_var": 18.514149729410807,
      "learning_rate": 5e-05,
      "loss": 0.4546,
      "loss/crossentropy": 3.182520866394043,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.34765625,
      "loss/idx": 0.0,
      "loss/logits": 0.10692334175109863,
      "step": 141
    },
    {
      "epoch": 0.0011702943042930021,
      "grad_norm": 4.34375,
      "grad_norm_var": 17.60290501912435,
      "learning_rate": 5e-05,
      "loss": 0.2908,
      "loss/crossentropy": 1.5368177890777588,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2431640625,
      "loss/idx": 0.0,
      "loss/logits": 0.04762953519821167,
      "step": 142
    },
    {
      "epoch": 0.001178535813478164,
      "grad_norm": 4.5,
      "grad_norm_var": 17.029766591389976,
      "learning_rate": 5e-05,
      "loss": 0.407,
      "loss/crossentropy": 2.778043270111084,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.302734375,
      "loss/idx": 0.0,
      "loss/logits": 0.1042385995388031,
      "step": 143
    },
    {
      "epoch": 0.0011867773226633262,
      "grad_norm": 4.15625,
      "grad_norm_var": 16.600789133707682,
      "learning_rate": 5e-05,
      "loss": 0.3435,
      "loss/crossentropy": 2.792048692703247,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.267578125,
      "loss/idx": 0.0,
      "loss/logits": 0.07588605582714081,
      "step": 144
    },
    {
      "epoch": 0.001195018831848488,
      "grad_norm": 3.8125,
      "grad_norm_var": 16.797792307535808,
      "learning_rate": 5e-05,
      "loss": 0.2385,
      "loss/crossentropy": 1.401113510131836,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.205078125,
      "loss/idx": 0.0,
      "loss/logits": 0.03345421701669693,
      "step": 145
    },
    {
      "epoch": 0.0012032603410336502,
      "grad_norm": 6.875,
      "grad_norm_var": 12.726405588785807,
      "learning_rate": 5e-05,
      "loss": 0.3725,
      "loss/crossentropy": 2.2165474891662598,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.296875,
      "loss/idx": 0.0,
      "loss/logits": 0.07561925053596497,
      "step": 146
    },
    {
      "epoch": 0.001211501850218812,
      "grad_norm": 3.171875,
      "grad_norm_var": 12.234430948893229,
      "learning_rate": 5e-05,
      "loss": 0.2506,
      "loss/crossentropy": 2.589618444442749,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.19921875,
      "loss/idx": 0.0,
      "loss/logits": 0.05137525126338005,
      "step": 147
    },
    {
      "epoch": 0.0012197433594039742,
      "grad_norm": 22.25,
      "grad_norm_var": 29.706151326497395,
      "learning_rate": 5e-05,
      "loss": 0.542,
      "loss/crossentropy": 1.4461145401000977,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.47265625,
      "loss/idx": 0.0,
      "loss/logits": 0.06938936561346054,
      "step": 148
    },
    {
      "epoch": 0.001227984868589136,
      "grad_norm": 4.75,
      "grad_norm_var": 28.819587198893228,
      "learning_rate": 5e-05,
      "loss": 0.3594,
      "loss/crossentropy": 1.5630475282669067,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.28125,
      "loss/idx": 0.0,
      "loss/logits": 0.07812213897705078,
      "step": 149
    },
    {
      "epoch": 0.001236226377774298,
      "grad_norm": 3.09375,
      "grad_norm_var": 28.963407389322917,
      "learning_rate": 5e-05,
      "loss": 0.2805,
      "loss/crossentropy": 1.3344874382019043,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.234375,
      "loss/idx": 0.0,
      "loss/logits": 0.04612912982702255,
      "step": 150
    },
    {
      "epoch": 0.00124446788695946,
      "grad_norm": 6.34375,
      "grad_norm_var": 24.164176432291665,
      "learning_rate": 5e-05,
      "loss": 0.3487,
      "loss/crossentropy": 2.1057682037353516,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.28125,
      "loss/idx": 0.0,
      "loss/logits": 0.06741908937692642,
      "step": 151
    },
    {
      "epoch": 0.001252709396144622,
      "grad_norm": 3.078125,
      "grad_norm_var": 24.164176432291665,
      "learning_rate": 5e-05,
      "loss": 0.3282,
      "loss/crossentropy": 2.7360680103302,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.248046875,
      "loss/idx": 0.0,
      "loss/logits": 0.0801510438323021,
      "step": 152
    },
    {
      "epoch": 0.001260950905329784,
      "grad_norm": 3.265625,
      "grad_norm_var": 24.076806640625,
      "learning_rate": 5e-05,
      "loss": 0.2896,
      "loss/crossentropy": 2.9115164279937744,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2265625,
      "loss/idx": 0.0,
      "loss/logits": 0.06300797313451767,
      "step": 153
    },
    {
      "epoch": 0.001269192414514946,
      "grad_norm": 3.109375,
      "grad_norm_var": 23.841239420572915,
      "learning_rate": 5e-05,
      "loss": 0.2801,
      "loss/crossentropy": 2.20858097076416,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.22265625,
      "loss/idx": 0.0,
      "loss/logits": 0.05741541087627411,
      "step": 154
    },
    {
      "epoch": 0.001277433923700108,
      "grad_norm": 3.4375,
      "grad_norm_var": 21.679227701822917,
      "learning_rate": 5e-05,
      "loss": 0.2616,
      "loss/crossentropy": 2.4968795776367188,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.205078125,
      "loss/idx": 0.0,
      "loss/logits": 0.05649275332689285,
      "step": 155
    },
    {
      "epoch": 0.00128567543288527,
      "grad_norm": 1.90625,
      "grad_norm_var": 22.328641764322917,
      "learning_rate": 5e-05,
      "loss": 0.2142,
      "loss/crossentropy": 1.6698881387710571,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.177734375,
      "loss/idx": 0.0,
      "loss/logits": 0.03645133972167969,
      "step": 156
    },
    {
      "epoch": 0.0012939169420704319,
      "grad_norm": 2.84375,
      "grad_norm_var": 22.640543619791668,
      "learning_rate": 5e-05,
      "loss": 0.2762,
      "loss/crossentropy": 2.5742998123168945,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.208984375,
      "loss/idx": 0.0,
      "loss/logits": 0.06718096137046814,
      "step": 157
    },
    {
      "epoch": 0.001302158451255594,
      "grad_norm": 13.0,
      "grad_norm_var": 26.498661295572916,
      "learning_rate": 5e-05,
      "loss": 0.3361,
      "loss/crossentropy": 2.4912259578704834,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.26953125,
      "loss/idx": 0.0,
      "loss/logits": 0.06653441488742828,
      "step": 158
    },
    {
      "epoch": 0.0013103999604407559,
      "grad_norm": 2.28125,
      "grad_norm_var": 27.131640625,
      "learning_rate": 5e-05,
      "loss": 0.244,
      "loss/crossentropy": 1.5568723678588867,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1923828125,
      "loss/idx": 0.0,
      "loss/logits": 0.05163004621863365,
      "step": 159
    },
    {
      "epoch": 0.001318641469625918,
      "grad_norm": 2.90625,
      "grad_norm_var": 27.446744791666667,
      "learning_rate": 5e-05,
      "loss": 0.2633,
      "loss/crossentropy": 2.150268793106079,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.212890625,
      "loss/idx": 0.0,
      "loss/logits": 0.050429798662662506,
      "step": 160
    },
    {
      "epoch": 0.0013268829788110799,
      "grad_norm": 3.6875,
      "grad_norm_var": 27.473893229166666,
      "learning_rate": 5e-05,
      "loss": 0.2778,
      "loss/crossentropy": 1.7107495069503784,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.21875,
      "loss/idx": 0.0,
      "loss/logits": 0.059024274349212646,
      "step": 161
    },
    {
      "epoch": 0.001335124487996242,
      "grad_norm": 5.46875,
      "grad_norm_var": 27.316239420572916,
      "learning_rate": 5e-05,
      "loss": 0.3054,
      "loss/crossentropy": 2.609410285949707,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.236328125,
      "loss/idx": 0.0,
      "loss/logits": 0.06908264756202698,
      "step": 162
    },
    {
      "epoch": 0.0013433659971814039,
      "grad_norm": 2.1875,
      "grad_norm_var": 27.654426066080728,
      "learning_rate": 5e-05,
      "loss": 0.1832,
      "loss/crossentropy": 1.302159309387207,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1552734375,
      "loss/idx": 0.0,
      "loss/logits": 0.027962597087025642,
      "step": 163
    },
    {
      "epoch": 0.0013516075063665658,
      "grad_norm": 4.96875,
      "grad_norm_var": 7.092438761393229,
      "learning_rate": 5e-05,
      "loss": 0.275,
      "loss/crossentropy": 1.3545722961425781,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.23828125,
      "loss/idx": 0.0,
      "loss/logits": 0.03673800453543663,
      "step": 164
    },
    {
      "epoch": 0.0013598490155517279,
      "grad_norm": 5.625,
      "grad_norm_var": 7.210814412434896,
      "learning_rate": 5e-05,
      "loss": 0.3255,
      "loss/crossentropy": 2.3857431411743164,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.267578125,
      "loss/idx": 0.0,
      "loss/logits": 0.05789117142558098,
      "step": 165
    },
    {
      "epoch": 0.0013680905247368898,
      "grad_norm": 2.3125,
      "grad_norm_var": 7.364216105143229,
      "learning_rate": 5e-05,
      "loss": 0.224,
      "loss/crossentropy": 1.6262630224227905,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1865234375,
      "loss/idx": 0.0,
      "loss/logits": 0.03748723864555359,
      "step": 166
    },
    {
      "epoch": 0.0013763320339220519,
      "grad_norm": 3.515625,
      "grad_norm_var": 7.037398274739584,
      "learning_rate": 5e-05,
      "loss": 0.3005,
      "loss/crossentropy": 2.802839756011963,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2421875,
      "loss/idx": 0.0,
      "loss/logits": 0.05828278884291649,
      "step": 167
    },
    {
      "epoch": 0.0013845735431072138,
      "grad_norm": 5.9375,
      "grad_norm_var": 7.206615193684896,
      "learning_rate": 5e-05,
      "loss": 0.3168,
      "loss/crossentropy": 2.6197855472564697,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.24609375,
      "loss/idx": 0.0,
      "loss/logits": 0.07069416344165802,
      "step": 168
    },
    {
      "epoch": 0.0013928150522923759,
      "grad_norm": 2.609375,
      "grad_norm_var": 7.311205037434896,
      "learning_rate": 5e-05,
      "loss": 0.2188,
      "loss/crossentropy": 2.0093469619750977,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.177734375,
      "loss/idx": 0.0,
      "loss/logits": 0.04102495685219765,
      "step": 169
    },
    {
      "epoch": 0.0014010565614775378,
      "grad_norm": 9.0625,
      "grad_norm_var": 8.730110677083333,
      "learning_rate": 5e-05,
      "loss": 0.4723,
      "loss/crossentropy": 0.45764070749282837,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.421875,
      "loss/idx": 0.0,
      "loss/logits": 0.05042431876063347,
      "step": 170
    },
    {
      "epoch": 0.0014092980706626997,
      "grad_norm": 10.6875,
      "grad_norm_var": 11.003287760416667,
      "learning_rate": 5e-05,
      "loss": 0.2967,
      "loss/crossentropy": 1.4506618976593018,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25,
      "loss/idx": 0.0,
      "loss/logits": 0.04666414484381676,
      "step": 171
    },
    {
      "epoch": 0.0014175395798478618,
      "grad_norm": 2.734375,
      "grad_norm_var": 10.711449178059896,
      "learning_rate": 5e-05,
      "loss": 0.1833,
      "loss/crossentropy": 1.2239363193511963,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1494140625,
      "loss/idx": 0.0,
      "loss/logits": 0.03392494469881058,
      "step": 172
    },
    {
      "epoch": 0.0014257810890330237,
      "grad_norm": 9.25,
      "grad_norm_var": 11.44383036295573,
      "learning_rate": 5e-05,
      "loss": 0.4527,
      "loss/crossentropy": 2.3572747707366943,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.365234375,
      "loss/idx": 0.0,
      "loss/logits": 0.08745455741882324,
      "step": 173
    },
    {
      "epoch": 0.0014340225982181858,
      "grad_norm": 3.328125,
      "grad_norm_var": 7.476220703125,
      "learning_rate": 5e-05,
      "loss": 0.3071,
      "loss/crossentropy": 2.6207613945007324,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.23828125,
      "loss/idx": 0.0,
      "loss/logits": 0.06882129609584808,
      "step": 174
    },
    {
      "epoch": 0.0014422641074033477,
      "grad_norm": 12.8125,
      "grad_norm_var": 10.892020670572917,
      "learning_rate": 5e-05,
      "loss": 0.3909,
      "loss/crossentropy": 2.3904902935028076,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.3046875,
      "loss/idx": 0.0,
      "loss/logits": 0.08622868359088898,
      "step": 175
    },
    {
      "epoch": 0.0014505056165885098,
      "grad_norm": 6.78125,
      "grad_norm_var": 10.519657389322917,
      "learning_rate": 5e-05,
      "loss": 0.4847,
      "loss/crossentropy": 2.4582583904266357,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.40625,
      "loss/idx": 0.0,
      "loss/logits": 0.07843705266714096,
      "step": 176
    },
    {
      "epoch": 0.0014587471257736717,
      "grad_norm": 6.125,
      "grad_norm_var": 10.241630045572917,
      "learning_rate": 5e-05,
      "loss": 0.3267,
      "loss/crossentropy": 2.8331282138824463,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.248046875,
      "loss/idx": 0.0,
      "loss/logits": 0.07867051661014557,
      "step": 177
    },
    {
      "epoch": 0.0014669886349588336,
      "grad_norm": 4.21875,
      "grad_norm_var": 10.400809733072917,
      "learning_rate": 5e-05,
      "loss": 0.4616,
      "loss/crossentropy": 2.921239137649536,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.35546875,
      "loss/idx": 0.0,
      "loss/logits": 0.10613523423671722,
      "step": 178
    },
    {
      "epoch": 0.0014752301441439957,
      "grad_norm": 2.96875,
      "grad_norm_var": 10.066845703125,
      "learning_rate": 5e-05,
      "loss": 0.2874,
      "loss/crossentropy": 2.7095119953155518,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2333984375,
      "loss/idx": 0.0,
      "loss/logits": 0.05400337651371956,
      "step": 179
    },
    {
      "epoch": 0.0014834716533291576,
      "grad_norm": 2.71875,
      "grad_norm_var": 10.635205078125,
      "learning_rate": 5e-05,
      "loss": 0.3012,
      "loss/crossentropy": 2.5020012855529785,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.23046875,
      "loss/idx": 0.0,
      "loss/logits": 0.07070466130971909,
      "step": 180
    },
    {
      "epoch": 0.0014917131625143197,
      "grad_norm": 2.375,
      "grad_norm_var": 11.313981119791666,
      "learning_rate": 5e-05,
      "loss": 0.2055,
      "loss/crossentropy": 1.2848535776138306,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1767578125,
      "loss/idx": 0.0,
      "loss/logits": 0.02870912477374077,
      "step": 181
    },
    {
      "epoch": 0.0014999546716994816,
      "grad_norm": 4.4375,
      "grad_norm_var": 10.703043619791666,
      "learning_rate": 5e-05,
      "loss": 0.2174,
      "loss/crossentropy": 0.40366628766059875,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.201171875,
      "loss/idx": 0.0,
      "loss/logits": 0.016210440546274185,
      "step": 182
    },
    {
      "epoch": 0.0015081961808846437,
      "grad_norm": 6.28125,
      "grad_norm_var": 10.41333719889323,
      "learning_rate": 5e-05,
      "loss": 0.3403,
      "loss/crossentropy": 2.8000519275665283,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.263671875,
      "loss/idx": 0.0,
      "loss/logits": 0.07665810734033585,
      "step": 183
    },
    {
      "epoch": 0.0015164376900698056,
      "grad_norm": 2.15625,
      "grad_norm_var": 11.22276102701823,
      "learning_rate": 5e-05,
      "loss": 0.2103,
      "loss/crossentropy": 1.5652306079864502,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1708984375,
      "loss/idx": 0.0,
      "loss/logits": 0.039365194737911224,
      "step": 184
    },
    {
      "epoch": 0.0015246791992549675,
      "grad_norm": 50.5,
      "grad_norm_var": 135.891162109375,
      "learning_rate": 5e-05,
      "loss": 0.5337,
      "loss/crossentropy": 1.4967753887176514,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.4453125,
      "loss/idx": 0.0,
      "loss/logits": 0.08833958208560944,
      "step": 185
    },
    {
      "epoch": 0.0015329207084401296,
      "grad_norm": 6.53125,
      "grad_norm_var": 136.11099853515626,
      "learning_rate": 5e-05,
      "loss": 0.3785,
      "loss/crossentropy": 2.4065871238708496,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2890625,
      "loss/idx": 0.0,
      "loss/logits": 0.08948490023612976,
      "step": 186
    },
    {
      "epoch": 0.0015411622176252915,
      "grad_norm": 6.125,
      "grad_norm_var": 136.0016886393229,
      "learning_rate": 5e-05,
      "loss": 0.315,
      "loss/crossentropy": 2.2277615070343018,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.244140625,
      "loss/idx": 0.0,
      "loss/logits": 0.07082026451826096,
      "step": 187
    },
    {
      "epoch": 0.0015494037268104536,
      "grad_norm": 2.578125,
      "grad_norm_var": 136.11466471354166,
      "learning_rate": 5e-05,
      "loss": 0.2275,
      "loss/crossentropy": 2.0500736236572266,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1806640625,
      "loss/idx": 0.0,
      "loss/logits": 0.04683098569512367,
      "step": 188
    },
    {
      "epoch": 0.0015576452359956155,
      "grad_norm": 2.203125,
      "grad_norm_var": 138.1135732014974,
      "learning_rate": 5e-05,
      "loss": 0.1763,
      "loss/crossentropy": 0.851466953754425,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1552734375,
      "loss/idx": 0.0,
      "loss/logits": 0.021058566868305206,
      "step": 189
    },
    {
      "epoch": 0.0015658867451807776,
      "grad_norm": 10.9375,
      "grad_norm_var": 137.36402994791666,
      "learning_rate": 5e-05,
      "loss": 0.4211,
      "loss/crossentropy": 1.5812166929244995,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.33984375,
      "loss/idx": 0.0,
      "loss/logits": 0.08130454272031784,
      "step": 190
    },
    {
      "epoch": 0.0015741282543659395,
      "grad_norm": 5.75,
      "grad_norm_var": 136.052685546875,
      "learning_rate": 5e-05,
      "loss": 0.2656,
      "loss/crossentropy": 1.3986968994140625,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2216796875,
      "loss/idx": 0.0,
      "loss/logits": 0.04394121095538139,
      "step": 191
    },
    {
      "epoch": 0.0015823697635511014,
      "grad_norm": 2.203125,
      "grad_norm_var": 137.9039052327474,
      "learning_rate": 5e-05,
      "loss": 0.2049,
      "loss/crossentropy": 2.949207067489624,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1591796875,
      "loss/idx": 0.0,
      "loss/logits": 0.04576685652136803,
      "step": 192
    },
    {
      "epoch": 0.0015906112727362635,
      "grad_norm": 206.0,
      "grad_norm_var": 2601.2852040608723,
      "learning_rate": 5e-05,
      "loss": 1.1479,
      "loss/crossentropy": 1.637980580329895,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.015625,
      "loss/idx": 0.0,
      "loss/logits": 0.13231301307678223,
      "step": 193
    },
    {
      "epoch": 0.0015988527819214254,
      "grad_norm": 4.28125,
      "grad_norm_var": 2601.1549875895184,
      "learning_rate": 5e-05,
      "loss": 0.294,
      "loss/crossentropy": 2.0168232917785645,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.23828125,
      "loss/idx": 0.0,
      "loss/logits": 0.055670544505119324,
      "step": 194
    },
    {
      "epoch": 0.0016070942911065875,
      "grad_norm": 5.4375,
      "grad_norm_var": 2595.9699696858725,
      "learning_rate": 5e-05,
      "loss": 0.3063,
      "loss/crossentropy": 2.8578052520751953,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2275390625,
      "loss/idx": 0.0,
      "loss/logits": 0.07876630872488022,
      "step": 195
    },
    {
      "epoch": 0.0016153358002917494,
      "grad_norm": 2.5,
      "grad_norm_var": 2596.477936808268,
      "learning_rate": 5e-05,
      "loss": 0.1944,
      "loss/crossentropy": 1.4366533756256104,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.166015625,
      "loss/idx": 0.0,
      "loss/logits": 0.028374146670103073,
      "step": 196
    },
    {
      "epoch": 0.0016235773094769115,
      "grad_norm": 2.09375,
      "grad_norm_var": 2597.144513956706,
      "learning_rate": 5e-05,
      "loss": 0.2272,
      "loss/crossentropy": 1.4764188528060913,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1845703125,
      "loss/idx": 0.0,
      "loss/logits": 0.04259010776877403,
      "step": 197
    },
    {
      "epoch": 0.0016318188186620734,
      "grad_norm": 8.25,
      "grad_norm_var": 2590.14152730306,
      "learning_rate": 5e-05,
      "loss": 0.2137,
      "loss/crossentropy": 0.44381940364837646,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1884765625,
      "loss/idx": 0.0,
      "loss/logits": 0.025243356823921204,
      "step": 198
    },
    {
      "epoch": 0.0016400603278472353,
      "grad_norm": 3.703125,
      "grad_norm_var": 2595.355013020833,
      "learning_rate": 5e-05,
      "loss": 0.2982,
      "loss/crossentropy": 2.862804889678955,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.23046875,
      "loss/idx": 0.0,
      "loss/logits": 0.06769528239965439,
      "step": 199
    },
    {
      "epoch": 0.0016483018370323974,
      "grad_norm": 30.625,
      "grad_norm_var": 2577.980920410156,
      "learning_rate": 5e-05,
      "loss": 0.5157,
      "loss/crossentropy": 2.726966142654419,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.4296875,
      "loss/idx": 0.0,
      "loss/logits": 0.08603046834468842,
      "step": 200
    },
    {
      "epoch": 0.0016565433462175593,
      "grad_norm": 8.4375,
      "grad_norm_var": 2527.9221638997396,
      "learning_rate": 5e-05,
      "loss": 0.4416,
      "loss/crossentropy": 1.4357587099075317,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.37109375,
      "loss/idx": 0.0,
      "loss/logits": 0.07054366171360016,
      "step": 201
    },
    {
      "epoch": 0.0016647848554027214,
      "grad_norm": 3.515625,
      "grad_norm_var": 2533.595897420247,
      "learning_rate": 5e-05,
      "loss": 0.2845,
      "loss/crossentropy": 2.2265231609344482,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.21875,
      "loss/idx": 0.0,
      "loss/logits": 0.06571735441684723,
      "step": 202
    },
    {
      "epoch": 0.0016730263645878833,
      "grad_norm": 8.1875,
      "grad_norm_var": 2530.3101308186847,
      "learning_rate": 5e-05,
      "loss": 0.3526,
      "loss/crossentropy": 2.462019681930542,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.28125,
      "loss/idx": 0.0,
      "loss/logits": 0.0713062509894371,
      "step": 203
    },
    {
      "epoch": 0.0016812678737730454,
      "grad_norm": 2.046875,
      "grad_norm_var": 2531.50295308431,
      "learning_rate": 5e-05,
      "loss": 0.2505,
      "loss/crossentropy": 2.9555587768554688,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1923828125,
      "loss/idx": 0.0,
      "loss/logits": 0.05816446244716644,
      "step": 204
    },
    {
      "epoch": 0.0016895093829582073,
      "grad_norm": 4.3125,
      "grad_norm_var": 2527.0187459309896,
      "learning_rate": 5e-05,
      "loss": 0.3139,
      "loss/crossentropy": 1.3578487634658813,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.267578125,
      "loss/idx": 0.0,
      "loss/logits": 0.04633466899394989,
      "step": 205
    },
    {
      "epoch": 0.0016977508921433692,
      "grad_norm": 5.03125,
      "grad_norm_var": 2535.7589192708333,
      "learning_rate": 5e-05,
      "loss": 0.2753,
      "loss/crossentropy": 2.804027557373047,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2109375,
      "loss/idx": 0.0,
      "loss/logits": 0.06441053748130798,
      "step": 206
    },
    {
      "epoch": 0.0017059924013285313,
      "grad_norm": 2.859375,
      "grad_norm_var": 2541.3487782796224,
      "learning_rate": 5e-05,
      "loss": 0.2116,
      "loss/crossentropy": 1.8921546936035156,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1767578125,
      "loss/idx": 0.0,
      "loss/logits": 0.034831516444683075,
      "step": 207
    },
    {
      "epoch": 0.0017142339105136932,
      "grad_norm": 1.765625,
      "grad_norm_var": 2542.324095662435,
      "learning_rate": 5e-05,
      "loss": 0.2004,
      "loss/crossentropy": 2.6469180583953857,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1572265625,
      "loss/idx": 0.0,
      "loss/logits": 0.04312657564878464,
      "step": 208
    },
    {
      "epoch": 0.0017224754196988553,
      "grad_norm": 5.65625,
      "grad_norm_var": 47.41833394368489,
      "learning_rate": 5e-05,
      "loss": 0.3427,
      "loss/crossentropy": 1.994149088859558,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.27734375,
      "loss/idx": 0.0,
      "loss/logits": 0.06540031731128693,
      "step": 209
    },
    {
      "epoch": 0.0017307169288840172,
      "grad_norm": 3.671875,
      "grad_norm_var": 47.59491780598958,
      "learning_rate": 5e-05,
      "loss": 0.2391,
      "loss/crossentropy": 1.5324124097824097,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1953125,
      "loss/idx": 0.0,
      "loss/logits": 0.04377663880586624,
      "step": 210
    },
    {
      "epoch": 0.0017389584380691793,
      "grad_norm": 7.125,
      "grad_norm_var": 47.61689046223958,
      "learning_rate": 5e-05,
      "loss": 0.5363,
      "loss/crossentropy": 2.5077903270721436,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.4453125,
      "loss/idx": 0.0,
      "loss/logits": 0.09098894894123077,
      "step": 211
    },
    {
      "epoch": 0.0017471999472543412,
      "grad_norm": 2.5,
      "grad_norm_var": 47.61689046223958,
      "learning_rate": 5e-05,
      "loss": 0.2245,
      "loss/crossentropy": 1.6434502601623535,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.042850345373153687,
      "step": 212
    },
    {
      "epoch": 0.0017554414564395031,
      "grad_norm": 3.0625,
      "grad_norm_var": 47.140462239583336,
      "learning_rate": 5e-05,
      "loss": 0.2987,
      "loss/crossentropy": 2.1260766983032227,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.228515625,
      "loss/idx": 0.0,
      "loss/logits": 0.07022828608751297,
      "step": 213
    },
    {
      "epoch": 0.0017636829656246652,
      "grad_norm": 2.703125,
      "grad_norm_var": 47.61895243326823,
      "learning_rate": 5e-05,
      "loss": 0.3036,
      "loss/crossentropy": 2.342567205429077,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.24609375,
      "loss/idx": 0.0,
      "loss/logits": 0.057552557438611984,
      "step": 214
    },
    {
      "epoch": 0.0017719244748098271,
      "grad_norm": 3.5625,
      "grad_norm_var": 47.66232096354167,
      "learning_rate": 5e-05,
      "loss": 0.2831,
      "loss/crossentropy": 2.4342286586761475,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.21875,
      "loss/idx": 0.0,
      "loss/logits": 0.06433624029159546,
      "step": 215
    },
    {
      "epoch": 0.0017801659839949892,
      "grad_norm": 4.59375,
      "grad_norm_var": 4.341304524739583,
      "learning_rate": 5e-05,
      "loss": 0.2732,
      "loss/crossentropy": 1.6944836378097534,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.05249807611107826,
      "step": 216
    },
    {
      "epoch": 0.0017884074931801511,
      "grad_norm": 3.015625,
      "grad_norm_var": 3.197980753580729,
      "learning_rate": 5e-05,
      "loss": 0.2028,
      "loss/crossentropy": 1.4322035312652588,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.173828125,
      "loss/idx": 0.0,
      "loss/logits": 0.028966199606657028,
      "step": 217
    },
    {
      "epoch": 0.0017966490023653132,
      "grad_norm": 8.1875,
      "grad_norm_var": 4.275614420572917,
      "learning_rate": 5e-05,
      "loss": 0.4244,
      "loss/crossentropy": 2.7989346981048584,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.3359375,
      "loss/idx": 0.0,
      "loss/logits": 0.08842961490154266,
      "step": 218
    },
    {
      "epoch": 0.0018048905115504751,
      "grad_norm": 2.359375,
      "grad_norm_var": 3.3524485270182294,
      "learning_rate": 5e-05,
      "loss": 0.1763,
      "loss/crossentropy": 0.49160024523735046,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15625,
      "loss/idx": 0.0,
      "loss/logits": 0.020072361454367638,
      "step": 219
    },
    {
      "epoch": 0.001813132020735637,
      "grad_norm": 2.03125,
      "grad_norm_var": 3.356331380208333,
      "learning_rate": 5e-05,
      "loss": 0.1975,
      "loss/crossentropy": 0.9580312967300415,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.169921875,
      "loss/idx": 0.0,
      "loss/logits": 0.027562592178583145,
      "step": 220
    },
    {
      "epoch": 0.0018213735299207991,
      "grad_norm": 4.46875,
      "grad_norm_var": 3.366402180989583,
      "learning_rate": 5e-05,
      "loss": 0.2313,
      "loss/crossentropy": 2.2378625869750977,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.04968283697962761,
      "step": 221
    },
    {
      "epoch": 0.001829615039105961,
      "grad_norm": 2.609375,
      "grad_norm_var": 3.3716054280598957,
      "learning_rate": 5e-05,
      "loss": 0.2638,
      "loss/crossentropy": 1.2911431789398193,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.21484375,
      "loss/idx": 0.0,
      "loss/logits": 0.04894676432013512,
      "step": 222
    },
    {
      "epoch": 0.0018378565482911231,
      "grad_norm": 4.125,
      "grad_norm_var": 3.3196126302083333,
      "learning_rate": 5e-05,
      "loss": 0.2351,
      "loss/crossentropy": 2.6005423069000244,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.185546875,
      "loss/idx": 0.0,
      "loss/logits": 0.04953521490097046,
      "step": 223
    },
    {
      "epoch": 0.001846098057476285,
      "grad_norm": 2.109375,
      "grad_norm_var": 3.2319295247395834,
      "learning_rate": 5e-05,
      "loss": 0.1785,
      "loss/crossentropy": 1.635225772857666,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1455078125,
      "loss/idx": 0.0,
      "loss/logits": 0.03304152935743332,
      "step": 224
    },
    {
      "epoch": 0.0018543395666614471,
      "grad_norm": 6.4375,
      "grad_norm_var": 3.457047526041667,
      "learning_rate": 5e-05,
      "loss": 0.5431,
      "loss/crossentropy": 2.507209062576294,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.404296875,
      "loss/idx": 0.0,
      "loss/logits": 0.13885299861431122,
      "step": 225
    },
    {
      "epoch": 0.001862581075846609,
      "grad_norm": 2.984375,
      "grad_norm_var": 3.508430989583333,
      "learning_rate": 5e-05,
      "loss": 0.181,
      "loss/crossentropy": 0.42544418573379517,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1611328125,
      "loss/idx": 0.0,
      "loss/logits": 0.019888322800397873,
      "step": 226
    },
    {
      "epoch": 0.001870822585031771,
      "grad_norm": 3.140625,
      "grad_norm_var": 2.7699208577473957,
      "learning_rate": 5e-05,
      "loss": 0.2789,
      "loss/crossentropy": 2.700981378555298,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2138671875,
      "loss/idx": 0.0,
      "loss/logits": 0.06499424576759338,
      "step": 227
    },
    {
      "epoch": 0.001879064094216933,
      "grad_norm": 5.3125,
      "grad_norm_var": 2.8449940999348957,
      "learning_rate": 5e-05,
      "loss": 0.2954,
      "loss/crossentropy": 1.6264232397079468,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2451171875,
      "loss/idx": 0.0,
      "loss/logits": 0.050260186195373535,
      "step": 228
    },
    {
      "epoch": 0.001887305603402095,
      "grad_norm": 5.96875,
      "grad_norm_var": 3.089452107747396,
      "learning_rate": 5e-05,
      "loss": 0.1884,
      "loss/crossentropy": 1.3441599607467651,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1669921875,
      "loss/idx": 0.0,
      "loss/logits": 0.021441757678985596,
      "step": 229
    },
    {
      "epoch": 0.001895547112587257,
      "grad_norm": 2.171875,
      "grad_norm_var": 3.197223917643229,
      "learning_rate": 5e-05,
      "loss": 0.1824,
      "loss/crossentropy": 0.4492271840572357,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.162109375,
      "loss/idx": 0.0,
      "loss/logits": 0.02026466839015484,
      "step": 230
    },
    {
      "epoch": 0.001903788621772419,
      "grad_norm": 3.21875,
      "grad_norm_var": 3.222020467122396,
      "learning_rate": 5e-05,
      "loss": 0.2551,
      "loss/crossentropy": 2.23905873298645,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.20703125,
      "loss/idx": 0.0,
      "loss/logits": 0.04803081601858139,
      "step": 231
    },
    {
      "epoch": 0.001912030130957581,
      "grad_norm": 2.1875,
      "grad_norm_var": 3.368024698893229,
      "learning_rate": 5e-05,
      "loss": 0.216,
      "loss/crossentropy": 1.9740031957626343,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.169921875,
      "loss/idx": 0.0,
      "loss/logits": 0.04604914411902428,
      "step": 232
    },
    {
      "epoch": 0.001920271640142743,
      "grad_norm": 2.125,
      "grad_norm_var": 3.5072428385416665,
      "learning_rate": 5e-05,
      "loss": 0.2327,
      "loss/crossentropy": 2.738755226135254,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.18359375,
      "loss/idx": 0.0,
      "loss/logits": 0.04907117411494255,
      "step": 233
    },
    {
      "epoch": 0.0019285131493279048,
      "grad_norm": 4.21875,
      "grad_norm_var": 2.1248982747395835,
      "learning_rate": 5e-05,
      "loss": 0.4989,
      "loss/crossentropy": 2.8038580417633057,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.390625,
      "loss/idx": 0.0,
      "loss/logits": 0.10827778279781342,
      "step": 234
    },
    {
      "epoch": 0.001936754658513067,
      "grad_norm": 2.84375,
      "grad_norm_var": 2.068040974934896,
      "learning_rate": 5e-05,
      "loss": 0.3216,
      "loss/crossentropy": 2.015542984008789,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2734375,
      "loss/idx": 0.0,
      "loss/logits": 0.04818400368094444,
      "step": 235
    },
    {
      "epoch": 0.0019449961676982288,
      "grad_norm": 3.203125,
      "grad_norm_var": 1.9248372395833333,
      "learning_rate": 5e-05,
      "loss": 0.2473,
      "loss/crossentropy": 1.5457327365875244,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.205078125,
      "loss/idx": 0.0,
      "loss/logits": 0.04223756492137909,
      "step": 236
    },
    {
      "epoch": 0.001953237676883391,
      "grad_norm": 3.15625,
      "grad_norm_var": 1.8752766927083333,
      "learning_rate": 5e-05,
      "loss": 0.3016,
      "loss/crossentropy": 2.3469016551971436,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.24609375,
      "loss/idx": 0.0,
      "loss/logits": 0.05547412484884262,
      "step": 237
    },
    {
      "epoch": 0.001961479186068553,
      "grad_norm": 3.578125,
      "grad_norm_var": 1.8204060872395833,
      "learning_rate": 5e-05,
      "loss": 0.2486,
      "loss/crossentropy": 2.7459280490875244,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.197265625,
      "loss/idx": 0.0,
      "loss/logits": 0.051300592720508575,
      "step": 238
    },
    {
      "epoch": 0.0019697206952537147,
      "grad_norm": 1.9765625,
      "grad_norm_var": 1.9438433329264322,
      "learning_rate": 5e-05,
      "loss": 0.2187,
      "loss/crossentropy": 2.024442434310913,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.171875,
      "loss/idx": 0.0,
      "loss/logits": 0.04683014005422592,
      "step": 239
    },
    {
      "epoch": 0.001977962204438877,
      "grad_norm": 3.140625,
      "grad_norm_var": 1.8308489481608072,
      "learning_rate": 5e-05,
      "loss": 0.2406,
      "loss/crossentropy": 1.520363211631775,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.201171875,
      "loss/idx": 0.0,
      "loss/logits": 0.039388738572597504,
      "step": 240
    },
    {
      "epoch": 0.001986203713624039,
      "grad_norm": 2.609375,
      "grad_norm_var": 1.2366920471191407,
      "learning_rate": 5e-05,
      "loss": 0.1882,
      "loss/crossentropy": 2.6319429874420166,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15234375,
      "loss/idx": 0.0,
      "loss/logits": 0.035828400403261185,
      "step": 241
    },
    {
      "epoch": 0.001994445222809201,
      "grad_norm": 9.3125,
      "grad_norm_var": 3.5240455627441407,
      "learning_rate": 5e-05,
      "loss": 0.2554,
      "loss/crossentropy": 1.4544413089752197,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.21875,
      "loss/idx": 0.0,
      "loss/logits": 0.036612022668123245,
      "step": 242
    },
    {
      "epoch": 0.0020026867319943627,
      "grad_norm": 2.96875,
      "grad_norm_var": 3.5372271219889324,
      "learning_rate": 5e-05,
      "loss": 0.2419,
      "loss/crossentropy": 2.548147201538086,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1884765625,
      "loss/idx": 0.0,
      "loss/logits": 0.053470924496650696,
      "step": 243
    },
    {
      "epoch": 0.0020109282411795246,
      "grad_norm": 11.8125,
      "grad_norm_var": 7.640775299072265,
      "learning_rate": 5e-05,
      "loss": 0.3306,
      "loss/crossentropy": 0.6415009498596191,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.294921875,
      "loss/idx": 0.0,
      "loss/logits": 0.035646334290504456,
      "step": 244
    },
    {
      "epoch": 0.002019169750364687,
      "grad_norm": 3.203125,
      "grad_norm_var": 7.404184722900391,
      "learning_rate": 5e-05,
      "loss": 0.2558,
      "loss/crossentropy": 2.516376495361328,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.203125,
      "loss/idx": 0.0,
      "loss/logits": 0.052696891129016876,
      "step": 245
    },
    {
      "epoch": 0.002027411259549849,
      "grad_norm": 2.53125,
      "grad_norm_var": 7.3314674377441404,
      "learning_rate": 5e-05,
      "loss": 0.1816,
      "loss/crossentropy": 0.31695130467414856,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.166015625,
      "loss/idx": 0.0,
      "loss/logits": 0.015581747516989708,
      "step": 246
    },
    {
      "epoch": 0.0020356527687350108,
      "grad_norm": 2.515625,
      "grad_norm_var": 7.4243934631347654,
      "learning_rate": 5e-05,
      "loss": 0.2397,
      "loss/crossentropy": 1.937793493270874,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1875,
      "loss/idx": 0.0,
      "loss/logits": 0.05216747149825096,
      "step": 247
    },
    {
      "epoch": 0.0020438942779201726,
      "grad_norm": 2.46875,
      "grad_norm_var": 7.367502593994141,
      "learning_rate": 5e-05,
      "loss": 0.2293,
      "loss/crossentropy": 2.4479126930236816,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.04766194522380829,
      "step": 248
    },
    {
      "epoch": 0.0020521357871053345,
      "grad_norm": 2.25,
      "grad_norm_var": 7.339662424723307,
      "learning_rate": 5e-05,
      "loss": 0.1789,
      "loss/crossentropy": 1.441886067390442,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1484375,
      "loss/idx": 0.0,
      "loss/logits": 0.030450304970145226,
      "step": 249
    },
    {
      "epoch": 0.002060377296290497,
      "grad_norm": 6.25,
      "grad_norm_var": 7.694205474853516,
      "learning_rate": 5e-05,
      "loss": 0.2986,
      "loss/crossentropy": 2.495968818664551,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.234375,
      "loss/idx": 0.0,
      "loss/logits": 0.06425687670707703,
      "step": 250
    },
    {
      "epoch": 0.0020686188054756588,
      "grad_norm": 1.765625,
      "grad_norm_var": 7.931449127197266,
      "learning_rate": 5e-05,
      "loss": 0.1676,
      "loss/crossentropy": 1.5723477602005005,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1416015625,
      "loss/idx": 0.0,
      "loss/logits": 0.025984089821577072,
      "step": 251
    },
    {
      "epoch": 0.0020768603146608207,
      "grad_norm": 5.3125,
      "grad_norm_var": 8.00752944946289,
      "learning_rate": 5e-05,
      "loss": 0.4023,
      "loss/crossentropy": 1.5475258827209473,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.34375,
      "loss/idx": 0.0,
      "loss/logits": 0.05857189744710922,
      "step": 252
    },
    {
      "epoch": 0.0020851018238459825,
      "grad_norm": 4.96875,
      "grad_norm_var": 7.996083323160807,
      "learning_rate": 5e-05,
      "loss": 0.3194,
      "loss/crossentropy": 2.286716938018799,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.244140625,
      "loss/idx": 0.0,
      "loss/logits": 0.07523184269666672,
      "step": 253
    },
    {
      "epoch": 0.002093343333031145,
      "grad_norm": 5.5,
      "grad_norm_var": 8.076161448160807,
      "learning_rate": 5e-05,
      "loss": 0.2753,
      "loss/crossentropy": 1.5914890766143799,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.23046875,
      "loss/idx": 0.0,
      "loss/logits": 0.044802576303482056,
      "step": 254
    },
    {
      "epoch": 0.0021015848422163068,
      "grad_norm": 3.34375,
      "grad_norm_var": 7.771882120768229,
      "learning_rate": 5e-05,
      "loss": 0.2477,
      "loss/crossentropy": 2.1449875831604004,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1962890625,
      "loss/idx": 0.0,
      "loss/logits": 0.0514422208070755,
      "step": 255
    },
    {
      "epoch": 0.0021098263514014687,
      "grad_norm": 9.3125,
      "grad_norm_var": 9.1392578125,
      "learning_rate": 5e-05,
      "loss": 0.5091,
      "loss/crossentropy": 2.605140447616577,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.408203125,
      "loss/idx": 0.0,
      "loss/logits": 0.10090796649456024,
      "step": 256
    },
    {
      "epoch": 0.0021180678605866306,
      "grad_norm": 13.75,
      "grad_norm_var": 13.705028279622395,
      "learning_rate": 5e-05,
      "loss": 0.3277,
      "loss/crossentropy": 2.162487745285034,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.26953125,
      "loss/idx": 0.0,
      "loss/logits": 0.058200109750032425,
      "step": 257
    },
    {
      "epoch": 0.0021263093697717925,
      "grad_norm": 3.140625,
      "grad_norm_var": 12.910640462239583,
      "learning_rate": 5e-05,
      "loss": 0.2509,
      "loss/crossentropy": 2.1336512565612793,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.197265625,
      "loss/idx": 0.0,
      "loss/logits": 0.053586918860673904,
      "step": 258
    },
    {
      "epoch": 0.0021345508789569548,
      "grad_norm": 5.71875,
      "grad_norm_var": 12.61343994140625,
      "learning_rate": 5e-05,
      "loss": 0.2007,
      "loss/crossentropy": 0.37939441204071045,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.019016824662685394,
      "step": 259
    },
    {
      "epoch": 0.0021427923881421167,
      "grad_norm": 2.59375,
      "grad_norm_var": 9.846614583333333,
      "learning_rate": 5e-05,
      "loss": 0.2159,
      "loss/crossentropy": 1.1070560216903687,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.185546875,
      "loss/idx": 0.0,
      "loss/logits": 0.03035794384777546,
      "step": 260
    },
    {
      "epoch": 0.0021510338973272786,
      "grad_norm": 4.28125,
      "grad_norm_var": 9.709251912434896,
      "learning_rate": 5e-05,
      "loss": 0.2899,
      "loss/crossentropy": 1.604844331741333,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2294921875,
      "loss/idx": 0.0,
      "loss/logits": 0.06044600158929825,
      "step": 261
    },
    {
      "epoch": 0.0021592754065124405,
      "grad_norm": 2.84375,
      "grad_norm_var": 9.623680623372396,
      "learning_rate": 5e-05,
      "loss": 0.2858,
      "loss/crossentropy": 2.6856131553649902,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.06507028639316559,
      "step": 262
    },
    {
      "epoch": 0.0021675169156976024,
      "grad_norm": 3.734375,
      "grad_norm_var": 9.353270467122396,
      "learning_rate": 5e-05,
      "loss": 0.3012,
      "loss/crossentropy": 2.49045991897583,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.24609375,
      "loss/idx": 0.0,
      "loss/logits": 0.055099453777074814,
      "step": 263
    },
    {
      "epoch": 0.0021757584248827647,
      "grad_norm": 4.65625,
      "grad_norm_var": 8.964476521809896,
      "learning_rate": 5e-05,
      "loss": 0.3876,
      "loss/crossentropy": 1.3125131130218506,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.330078125,
      "loss/idx": 0.0,
      "loss/logits": 0.057526711374521255,
      "step": 264
    },
    {
      "epoch": 0.0021839999340679266,
      "grad_norm": 11.625,
      "grad_norm_var": 11.065306599934896,
      "learning_rate": 5e-05,
      "loss": 0.5553,
      "loss/crossentropy": 2.620126485824585,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.43359375,
      "loss/idx": 0.0,
      "loss/logits": 0.12169644981622696,
      "step": 265
    },
    {
      "epoch": 0.0021922414432530885,
      "grad_norm": 2.09375,
      "grad_norm_var": 11.756932576497396,
      "learning_rate": 5e-05,
      "loss": 0.2092,
      "loss/crossentropy": 1.3833715915679932,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.173828125,
      "loss/idx": 0.0,
      "loss/logits": 0.035347893834114075,
      "step": 266
    },
    {
      "epoch": 0.0022004829524382504,
      "grad_norm": 2.5,
      "grad_norm_var": 11.445540364583334,
      "learning_rate": 5e-05,
      "loss": 0.1932,
      "loss/crossentropy": 0.3456151485443115,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.177734375,
      "loss/idx": 0.0,
      "loss/logits": 0.015461962670087814,
      "step": 267
    },
    {
      "epoch": 0.0022087244616234127,
      "grad_norm": 2.546875,
      "grad_norm_var": 11.932225545247396,
      "learning_rate": 5e-05,
      "loss": 0.1921,
      "loss/crossentropy": 2.6017909049987793,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15234375,
      "loss/idx": 0.0,
      "loss/logits": 0.03972596302628517,
      "step": 268
    },
    {
      "epoch": 0.0022169659708085746,
      "grad_norm": 14.4375,
      "grad_norm_var": 17.290453084309895,
      "learning_rate": 5e-05,
      "loss": 0.368,
      "loss/crossentropy": 2.35398006439209,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2890625,
      "loss/idx": 0.0,
      "loss/logits": 0.0789838507771492,
      "step": 269
    },
    {
      "epoch": 0.0022252074799937365,
      "grad_norm": 3.53125,
      "grad_norm_var": 17.599608357747396,
      "learning_rate": 5e-05,
      "loss": 0.2167,
      "loss/crossentropy": 2.4693641662597656,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.166015625,
      "loss/idx": 0.0,
      "loss/logits": 0.05065637826919556,
      "step": 270
    },
    {
      "epoch": 0.0022334489891788984,
      "grad_norm": 2.515625,
      "grad_norm_var": 17.895113118489583,
      "learning_rate": 5e-05,
      "loss": 0.1815,
      "loss/crossentropy": 1.3819841146469116,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.154296875,
      "loss/idx": 0.0,
      "loss/logits": 0.027211952954530716,
      "step": 271
    },
    {
      "epoch": 0.0022416904983640603,
      "grad_norm": 7.0,
      "grad_norm_var": 17.078511555989582,
      "learning_rate": 5e-05,
      "loss": 0.1861,
      "loss/crossentropy": 1.4722107648849487,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1572265625,
      "loss/idx": 0.0,
      "loss/logits": 0.028832225129008293,
      "step": 272
    },
    {
      "epoch": 0.0022499320075492226,
      "grad_norm": 4.21875,
      "grad_norm_var": 12.190022786458334,
      "learning_rate": 5e-05,
      "loss": 0.3099,
      "loss/crossentropy": 1.6392327547073364,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.251953125,
      "loss/idx": 0.0,
      "loss/logits": 0.05795075744390488,
      "step": 273
    },
    {
      "epoch": 0.0022581735167343845,
      "grad_norm": 5.21875,
      "grad_norm_var": 11.989110310872396,
      "learning_rate": 5e-05,
      "loss": 0.4204,
      "loss/crossentropy": 2.4640941619873047,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.34765625,
      "loss/idx": 0.0,
      "loss/logits": 0.0727241188287735,
      "step": 274
    },
    {
      "epoch": 0.0022664150259195464,
      "grad_norm": 3.21875,
      "grad_norm_var": 12.130060831705729,
      "learning_rate": 5e-05,
      "loss": 0.2795,
      "loss/crossentropy": 1.452579140663147,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2314453125,
      "loss/idx": 0.0,
      "loss/logits": 0.048067688941955566,
      "step": 275
    },
    {
      "epoch": 0.0022746565351047083,
      "grad_norm": 6.9375,
      "grad_norm_var": 12.023729451497395,
      "learning_rate": 5e-05,
      "loss": 0.2885,
      "loss/crossentropy": 1.5026805400848389,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.23828125,
      "loss/idx": 0.0,
      "loss/logits": 0.05024395138025284,
      "step": 276
    },
    {
      "epoch": 0.00228289804428987,
      "grad_norm": 2.875,
      "grad_norm_var": 12.298021443684895,
      "learning_rate": 5e-05,
      "loss": 0.1911,
      "loss/crossentropy": 1.6457816362380981,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1552734375,
      "loss/idx": 0.0,
      "loss/logits": 0.03582204133272171,
      "step": 277
    },
    {
      "epoch": 0.0022911395534750325,
      "grad_norm": 2.453125,
      "grad_norm_var": 12.419710286458333,
      "learning_rate": 5e-05,
      "loss": 0.226,
      "loss/crossentropy": 2.44157338142395,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1767578125,
      "loss/idx": 0.0,
      "loss/logits": 0.0492391511797905,
      "step": 278
    },
    {
      "epoch": 0.0022993810626601944,
      "grad_norm": 3.09375,
      "grad_norm_var": 12.55113016764323,
      "learning_rate": 5e-05,
      "loss": 0.285,
      "loss/crossentropy": 2.398951292037964,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.21484375,
      "loss/idx": 0.0,
      "loss/logits": 0.07012955844402313,
      "step": 279
    },
    {
      "epoch": 0.0023076225718453563,
      "grad_norm": 4.78125,
      "grad_norm_var": 12.547500610351562,
      "learning_rate": 5e-05,
      "loss": 0.3511,
      "loss/crossentropy": 2.1601598262786865,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.267578125,
      "loss/idx": 0.0,
      "loss/logits": 0.08354485034942627,
      "step": 280
    },
    {
      "epoch": 0.002315864081030518,
      "grad_norm": 1.8046875,
      "grad_norm_var": 9.82229995727539,
      "learning_rate": 5e-05,
      "loss": 0.2235,
      "loss/crossentropy": 1.5090404748916626,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.18359375,
      "loss/idx": 0.0,
      "loss/logits": 0.03991977125406265,
      "step": 281
    },
    {
      "epoch": 0.0023241055902156805,
      "grad_norm": 3.375,
      "grad_norm_var": 9.5434445699056,
      "learning_rate": 5e-05,
      "loss": 0.3108,
      "loss/crossentropy": 2.371715545654297,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.251953125,
      "loss/idx": 0.0,
      "loss/logits": 0.05880487337708473,
      "step": 282
    },
    {
      "epoch": 0.0023323470994008424,
      "grad_norm": 4.78125,
      "grad_norm_var": 9.288734690348308,
      "learning_rate": 5e-05,
      "loss": 0.3743,
      "loss/crossentropy": 1.7449641227722168,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.296875,
      "loss/idx": 0.0,
      "loss/logits": 0.07747267186641693,
      "step": 283
    },
    {
      "epoch": 0.0023405886085860043,
      "grad_norm": 2.34375,
      "grad_norm_var": 9.345546213785807,
      "learning_rate": 5e-05,
      "loss": 0.2385,
      "loss/crossentropy": 2.332099199295044,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.05684517323970795,
      "step": 284
    },
    {
      "epoch": 0.002348830117771166,
      "grad_norm": 8.875,
      "grad_norm_var": 3.936232248942057,
      "learning_rate": 5e-05,
      "loss": 0.2679,
      "loss/crossentropy": 2.6605751514434814,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2197265625,
      "loss/idx": 0.0,
      "loss/logits": 0.04814404994249344,
      "step": 285
    },
    {
      "epoch": 0.002357071626956328,
      "grad_norm": 2.515625,
      "grad_norm_var": 4.089766184488933,
      "learning_rate": 5e-05,
      "loss": 0.2346,
      "loss/crossentropy": 2.4595489501953125,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.189453125,
      "loss/idx": 0.0,
      "loss/logits": 0.0451187826693058,
      "step": 286
    },
    {
      "epoch": 0.0023653131361414904,
      "grad_norm": 6.3125,
      "grad_norm_var": 4.175789133707682,
      "learning_rate": 5e-05,
      "loss": 0.4335,
      "loss/crossentropy": 3.0684797763824463,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.3125,
      "loss/idx": 0.0,
      "loss/logits": 0.12099675089120865,
      "step": 287
    },
    {
      "epoch": 0.0023735546453266523,
      "grad_norm": 2.046875,
      "grad_norm_var": 3.967474110921224,
      "learning_rate": 5e-05,
      "loss": 0.1653,
      "loss/crossentropy": 2.7369492053985596,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.130859375,
      "loss/idx": 0.0,
      "loss/logits": 0.03439934179186821,
      "step": 288
    },
    {
      "epoch": 0.002381796154511814,
      "grad_norm": 37.0,
      "grad_norm_var": 71.8541135152181,
      "learning_rate": 5e-05,
      "loss": 0.2523,
      "loss/crossentropy": 1.4466071128845215,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.21484375,
      "loss/idx": 0.0,
      "loss/logits": 0.037433233112096786,
      "step": 289
    },
    {
      "epoch": 0.002390037663696976,
      "grad_norm": 2.71875,
      "grad_norm_var": 72.5391721089681,
      "learning_rate": 5e-05,
      "loss": 0.183,
      "loss/crossentropy": 0.8366924524307251,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.154296875,
      "loss/idx": 0.0,
      "loss/logits": 0.028669871389865875,
      "step": 290
    },
    {
      "epoch": 0.002398279172882138,
      "grad_norm": 3.296875,
      "grad_norm_var": 72.5111467997233,
      "learning_rate": 5e-05,
      "loss": 0.2282,
      "loss/crossentropy": 2.2352423667907715,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1865234375,
      "loss/idx": 0.0,
      "loss/logits": 0.04168039560317993,
      "step": 291
    },
    {
      "epoch": 0.0024065206820673003,
      "grad_norm": 7.25,
      "grad_norm_var": 72.55836766560873,
      "learning_rate": 5e-05,
      "loss": 0.5589,
      "loss/crossentropy": 3.05739426612854,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.45703125,
      "loss/idx": 0.0,
      "loss/logits": 0.10190241038799286,
      "step": 292
    },
    {
      "epoch": 0.002414762191252462,
      "grad_norm": 8.4375,
      "grad_norm_var": 72.19658788045247,
      "learning_rate": 5e-05,
      "loss": 0.337,
      "loss/crossentropy": 1.8930912017822266,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.29296875,
      "loss/idx": 0.0,
      "loss/logits": 0.04408019781112671,
      "step": 293
    },
    {
      "epoch": 0.002423003700437624,
      "grad_norm": 10.9375,
      "grad_norm_var": 72.32363255818684,
      "learning_rate": 5e-05,
      "loss": 0.2491,
      "loss/crossentropy": 1.5801359415054321,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.208984375,
      "loss/idx": 0.0,
      "loss/logits": 0.04009478539228439,
      "step": 294
    },
    {
      "epoch": 0.002431245209622786,
      "grad_norm": 5.09375,
      "grad_norm_var": 71.57246068318685,
      "learning_rate": 5e-05,
      "loss": 0.1903,
      "loss/crossentropy": 0.9831718802452087,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.158203125,
      "loss/idx": 0.0,
      "loss/logits": 0.032129500061273575,
      "step": 295
    },
    {
      "epoch": 0.0024394867188079483,
      "grad_norm": 2.765625,
      "grad_norm_var": 72.41545384724935,
      "learning_rate": 5e-05,
      "loss": 0.3458,
      "loss/crossentropy": 2.587148666381836,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2470703125,
      "loss/idx": 0.0,
      "loss/logits": 0.09877443313598633,
      "step": 296
    },
    {
      "epoch": 0.00244772822799311,
      "grad_norm": 2.8125,
      "grad_norm_var": 71.80135091145833,
      "learning_rate": 5e-05,
      "loss": 0.2355,
      "loss/crossentropy": 2.281587839126587,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1865234375,
      "loss/idx": 0.0,
      "loss/logits": 0.04900825023651123,
      "step": 297
    },
    {
      "epoch": 0.002455969737178272,
      "grad_norm": 2.171875,
      "grad_norm_var": 72.45891825358073,
      "learning_rate": 5e-05,
      "loss": 0.1823,
      "loss/crossentropy": 1.4672614336013794,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1552734375,
      "loss/idx": 0.0,
      "loss/logits": 0.02706265263259411,
      "step": 298
    },
    {
      "epoch": 0.002464211246363434,
      "grad_norm": 2.953125,
      "grad_norm_var": 73.16838785807292,
      "learning_rate": 5e-05,
      "loss": 0.2346,
      "loss/crossentropy": 2.4047231674194336,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1865234375,
      "loss/idx": 0.0,
      "loss/logits": 0.048083603382110596,
      "step": 299
    },
    {
      "epoch": 0.002472452755548596,
      "grad_norm": 11.1875,
      "grad_norm_var": 72.89547526041666,
      "learning_rate": 5e-05,
      "loss": 0.3081,
      "loss/crossentropy": 0.815432071685791,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.279296875,
      "loss/idx": 0.0,
      "loss/logits": 0.028755802661180496,
      "step": 300
    },
    {
      "epoch": 0.0024806942647337582,
      "grad_norm": 5.34375,
      "grad_norm_var": 72.92076416015625,
      "learning_rate": 5e-05,
      "loss": 0.3042,
      "loss/crossentropy": 1.8723258972167969,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.248046875,
      "loss/idx": 0.0,
      "loss/logits": 0.05616258084774017,
      "step": 301
    },
    {
      "epoch": 0.00248893577391892,
      "grad_norm": 18.0,
      "grad_norm_var": 78.5388905843099,
      "learning_rate": 5e-05,
      "loss": 0.3228,
      "loss/crossentropy": 1.394120693206787,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2890625,
      "loss/idx": 0.0,
      "loss/logits": 0.03374548256397247,
      "step": 302
    },
    {
      "epoch": 0.002497177283104082,
      "grad_norm": 3.984375,
      "grad_norm_var": 79.40784505208333,
      "learning_rate": 5e-05,
      "loss": 0.1944,
      "loss/crossentropy": 1.3347328901290894,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16796875,
      "loss/idx": 0.0,
      "loss/logits": 0.02643435075879097,
      "step": 303
    },
    {
      "epoch": 0.002505418792289244,
      "grad_norm": 3.3125,
      "grad_norm_var": 78.5244618733724,
      "learning_rate": 5e-05,
      "loss": 0.2445,
      "loss/crossentropy": 1.3129806518554688,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.201171875,
      "loss/idx": 0.0,
      "loss/logits": 0.04336348548531532,
      "step": 304
    },
    {
      "epoch": 0.002513660301474406,
      "grad_norm": 2.5,
      "grad_norm_var": 19.303954060872396,
      "learning_rate": 5e-05,
      "loss": 0.2061,
      "loss/crossentropy": 1.494554042816162,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.02449900656938553,
      "step": 305
    },
    {
      "epoch": 0.002521901810659568,
      "grad_norm": 2.0625,
      "grad_norm_var": 19.600291951497397,
      "learning_rate": 5e-05,
      "loss": 0.2326,
      "loss/crossentropy": 2.698347806930542,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.19140625,
      "loss/idx": 0.0,
      "loss/logits": 0.04119253158569336,
      "step": 306
    },
    {
      "epoch": 0.00253014331984473,
      "grad_norm": 3.890625,
      "grad_norm_var": 19.427578735351563,
      "learning_rate": 5e-05,
      "loss": 0.4184,
      "loss/crossentropy": 1.5166016817092896,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.3515625,
      "loss/idx": 0.0,
      "loss/logits": 0.06688607484102249,
      "step": 307
    },
    {
      "epoch": 0.002538384829029892,
      "grad_norm": 7.28125,
      "grad_norm_var": 19.43370666503906,
      "learning_rate": 5e-05,
      "loss": 0.2909,
      "loss/crossentropy": 2.696192979812622,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.22265625,
      "loss/idx": 0.0,
      "loss/logits": 0.068264901638031,
      "step": 308
    },
    {
      "epoch": 0.002546626338215054,
      "grad_norm": 4.875,
      "grad_norm_var": 18.97215881347656,
      "learning_rate": 5e-05,
      "loss": 0.2964,
      "loss/crossentropy": 2.594907522201538,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.23828125,
      "loss/idx": 0.0,
      "loss/logits": 0.05810549482703209,
      "step": 309
    },
    {
      "epoch": 0.002554867847400216,
      "grad_norm": 2.59375,
      "grad_norm_var": 17.355557250976563,
      "learning_rate": 5e-05,
      "loss": 0.2423,
      "loss/crossentropy": 2.760004758834839,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1884765625,
      "loss/idx": 0.0,
      "loss/logits": 0.05380372703075409,
      "step": 310
    },
    {
      "epoch": 0.002563109356585378,
      "grad_norm": 2.84375,
      "grad_norm_var": 17.659365844726562,
      "learning_rate": 5e-05,
      "loss": 0.2252,
      "loss/crossentropy": 1.6147583723068237,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.189453125,
      "loss/idx": 0.0,
      "loss/logits": 0.035766348242759705,
      "step": 311
    },
    {
      "epoch": 0.00257135086577054,
      "grad_norm": 1.8671875,
      "grad_norm_var": 17.966829172770183,
      "learning_rate": 5e-05,
      "loss": 0.1994,
      "loss/crossentropy": 2.396746873855591,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1591796875,
      "loss/idx": 0.0,
      "loss/logits": 0.04022689908742905,
      "step": 312
    },
    {
      "epoch": 0.002579592374955702,
      "grad_norm": 2.71875,
      "grad_norm_var": 17.992909495035807,
      "learning_rate": 5e-05,
      "loss": 0.2099,
      "loss/crossentropy": 1.5479542016983032,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.177734375,
      "loss/idx": 0.0,
      "loss/logits": 0.03212570399045944,
      "step": 313
    },
    {
      "epoch": 0.0025878338841408637,
      "grad_norm": 1.34375,
      "grad_norm_var": 18.331384023030598,
      "learning_rate": 5e-05,
      "loss": 0.1331,
      "loss/crossentropy": 0.4866638779640198,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1171875,
      "loss/idx": 0.0,
      "loss/logits": 0.01593683287501335,
      "step": 314
    },
    {
      "epoch": 0.002596075393326026,
      "grad_norm": 2.3125,
      "grad_norm_var": 18.5145627339681,
      "learning_rate": 5e-05,
      "loss": 0.2208,
      "loss/crossentropy": 2.5530097484588623,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.18359375,
      "loss/idx": 0.0,
      "loss/logits": 0.037243057042360306,
      "step": 315
    },
    {
      "epoch": 0.002604316902511188,
      "grad_norm": 9.3125,
      "grad_norm_var": 17.1267453511556,
      "learning_rate": 5e-05,
      "loss": 0.2906,
      "loss/crossentropy": 1.721799373626709,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.251953125,
      "loss/idx": 0.0,
      "loss/logits": 0.03867912292480469,
      "step": 316
    },
    {
      "epoch": 0.00261255841169635,
      "grad_norm": 4.21875,
      "grad_norm_var": 17.100304921468098,
      "learning_rate": 5e-05,
      "loss": 0.2352,
      "loss/crossentropy": 2.6998496055603027,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.189453125,
      "loss/idx": 0.0,
      "loss/logits": 0.04570027440786362,
      "step": 317
    },
    {
      "epoch": 0.0026207999208815117,
      "grad_norm": 2.9375,
      "grad_norm_var": 4.307966868082683,
      "learning_rate": 5e-05,
      "loss": 0.268,
      "loss/crossentropy": 2.9610462188720703,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.203125,
      "loss/idx": 0.0,
      "loss/logits": 0.06485921144485474,
      "step": 318
    },
    {
      "epoch": 0.0026290414300666736,
      "grad_norm": 14.9375,
      "grad_norm_var": 12.325996653238933,
      "learning_rate": 5e-05,
      "loss": 0.4275,
      "loss/crossentropy": 0.4579806327819824,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.369140625,
      "loss/idx": 0.0,
      "loss/logits": 0.058338165283203125,
      "step": 319
    },
    {
      "epoch": 0.002637282939251836,
      "grad_norm": 2.6875,
      "grad_norm_var": 12.433784739176433,
      "learning_rate": 5e-05,
      "loss": 0.2148,
      "loss/crossentropy": 0.9076347947120667,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.033187899738550186,
      "step": 320
    },
    {
      "epoch": 0.002645524448436998,
      "grad_norm": 7.5,
      "grad_norm_var": 12.813667551676433,
      "learning_rate": 5e-05,
      "loss": 0.2431,
      "loss/crossentropy": 1.4940351247787476,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.197265625,
      "loss/idx": 0.0,
      "loss/logits": 0.04587508738040924,
      "step": 321
    },
    {
      "epoch": 0.0026537659576221597,
      "grad_norm": 3.09375,
      "grad_norm_var": 12.533095041910807,
      "learning_rate": 5e-05,
      "loss": 0.2585,
      "loss/crossentropy": 2.5319809913635254,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.193359375,
      "loss/idx": 0.0,
      "loss/logits": 0.06514355540275574,
      "step": 322
    },
    {
      "epoch": 0.0026620074668073216,
      "grad_norm": 2.34375,
      "grad_norm_var": 12.839448801676433,
      "learning_rate": 5e-05,
      "loss": 0.1839,
      "loss/crossentropy": 1.5948070287704468,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.150390625,
      "loss/idx": 0.0,
      "loss/logits": 0.03354639932513237,
      "step": 323
    },
    {
      "epoch": 0.002670248975992484,
      "grad_norm": 2.109375,
      "grad_norm_var": 12.630688222249349,
      "learning_rate": 5e-05,
      "loss": 0.2014,
      "loss/crossentropy": 0.86527419090271,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.173828125,
      "loss/idx": 0.0,
      "loss/logits": 0.027525369077920914,
      "step": 324
    },
    {
      "epoch": 0.002678490485177646,
      "grad_norm": 5.4375,
      "grad_norm_var": 12.698766835530598,
      "learning_rate": 5e-05,
      "loss": 0.3587,
      "loss/crossentropy": 1.7473679780960083,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.27734375,
      "loss/idx": 0.0,
      "loss/logits": 0.081350177526474,
      "step": 325
    },
    {
      "epoch": 0.0026867319943628077,
      "grad_norm": 3.8125,
      "grad_norm_var": 12.519842274983723,
      "learning_rate": 5e-05,
      "loss": 0.2829,
      "loss/crossentropy": 2.330885410308838,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.232421875,
      "loss/idx": 0.0,
      "loss/logits": 0.05051898583769798,
      "step": 326
    },
    {
      "epoch": 0.0026949735035479696,
      "grad_norm": 3.078125,
      "grad_norm_var": 12.476446278889973,
      "learning_rate": 5e-05,
      "loss": 0.2309,
      "loss/crossentropy": 1.6335246562957764,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.19140625,
      "loss/idx": 0.0,
      "loss/logits": 0.0394761748611927,
      "step": 327
    },
    {
      "epoch": 0.0027032150127331315,
      "grad_norm": 3.53125,
      "grad_norm_var": 12.097102864583333,
      "learning_rate": 5e-05,
      "loss": 0.1913,
      "loss/crossentropy": 1.0116859674453735,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.169921875,
      "loss/idx": 0.0,
      "loss/logits": 0.021392133086919785,
      "step": 328
    },
    {
      "epoch": 0.002711456521918294,
      "grad_norm": 108.0,
      "grad_norm_var": 680.3999959309896,
      "learning_rate": 5e-05,
      "loss": 0.7489,
      "loss/crossentropy": 1.9841949939727783,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.609375,
      "loss/idx": 0.0,
      "loss/logits": 0.13949471712112427,
      "step": 329
    },
    {
      "epoch": 0.0027196980311034557,
      "grad_norm": 1.8515625,
      "grad_norm_var": 679.7595273335775,
      "learning_rate": 5e-05,
      "loss": 0.1969,
      "loss/crossentropy": 2.633579730987549,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.154296875,
      "loss/idx": 0.0,
      "loss/logits": 0.042630117386579514,
      "step": 330
    },
    {
      "epoch": 0.0027279395402886176,
      "grad_norm": 3.640625,
      "grad_norm_var": 678.318477121989,
      "learning_rate": 5e-05,
      "loss": 0.3044,
      "loss/crossentropy": 1.2868930101394653,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25,
      "loss/idx": 0.0,
      "loss/logits": 0.054360825568437576,
      "step": 331
    },
    {
      "epoch": 0.0027361810494737795,
      "grad_norm": 2.0,
      "grad_norm_var": 683.4576983133952,
      "learning_rate": 5e-05,
      "loss": 0.1712,
      "loss/crossentropy": 1.3776507377624512,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.14453125,
      "loss/idx": 0.0,
      "loss/logits": 0.02663344331085682,
      "step": 332
    },
    {
      "epoch": 0.0027444225586589414,
      "grad_norm": 1.875,
      "grad_norm_var": 685.8260149637858,
      "learning_rate": 5e-05,
      "loss": 0.2246,
      "loss/crossentropy": 2.4259564876556396,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.177734375,
      "loss/idx": 0.0,
      "loss/logits": 0.04682992398738861,
      "step": 333
    },
    {
      "epoch": 0.0027526640678441038,
      "grad_norm": 2.484375,
      "grad_norm_var": 686.2989051818847,
      "learning_rate": 5e-05,
      "loss": 0.1464,
      "loss/crossentropy": 0.36722007393836975,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.011639876291155815,
      "step": 334
    },
    {
      "epoch": 0.0027609055770292656,
      "grad_norm": 2.484375,
      "grad_norm_var": 688.6630531311035,
      "learning_rate": 5e-05,
      "loss": 0.182,
      "loss/crossentropy": 1.3434722423553467,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.150390625,
      "loss/idx": 0.0,
      "loss/logits": 0.03163960948586464,
      "step": 335
    },
    {
      "epoch": 0.0027691470862144275,
      "grad_norm": 9.4375,
      "grad_norm_var": 685.1584144592285,
      "learning_rate": 5e-05,
      "loss": 0.5014,
      "loss/crossentropy": 1.7821474075317383,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.380859375,
      "loss/idx": 0.0,
      "loss/logits": 0.12050823867321014,
      "step": 336
    },
    {
      "epoch": 0.0027773885953995894,
      "grad_norm": 2.765625,
      "grad_norm_var": 688.2431556701661,
      "learning_rate": 5e-05,
      "loss": 0.1513,
      "loss/crossentropy": 2.026543378829956,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1259765625,
      "loss/idx": 0.0,
      "loss/logits": 0.025330830365419388,
      "step": 337
    },
    {
      "epoch": 0.0027856301045847518,
      "grad_norm": 2.25,
      "grad_norm_var": 689.0501564025878,
      "learning_rate": 5e-05,
      "loss": 0.1708,
      "loss/crossentropy": 1.9071934223175049,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.13671875,
      "loss/idx": 0.0,
      "loss/logits": 0.03409082442522049,
      "step": 338
    },
    {
      "epoch": 0.0027938716137699137,
      "grad_norm": 1.75,
      "grad_norm_var": 689.6639686584473,
      "learning_rate": 5e-05,
      "loss": 0.1443,
      "loss/crossentropy": 0.5046422481536865,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1298828125,
      "loss/idx": 0.0,
      "loss/logits": 0.014421624131500721,
      "step": 339
    },
    {
      "epoch": 0.0028021131229550755,
      "grad_norm": 2.59375,
      "grad_norm_var": 689.183125559489,
      "learning_rate": 5e-05,
      "loss": 0.2108,
      "loss/crossentropy": 1.3842849731445312,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.177734375,
      "loss/idx": 0.0,
      "loss/logits": 0.03306809440255165,
      "step": 340
    },
    {
      "epoch": 0.0028103546321402374,
      "grad_norm": 3.984375,
      "grad_norm_var": 690.1626604715983,
      "learning_rate": 5e-05,
      "loss": 0.3321,
      "loss/crossentropy": 2.6099562644958496,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.248046875,
      "loss/idx": 0.0,
      "loss/logits": 0.08409686386585236,
      "step": 341
    },
    {
      "epoch": 0.0028185961413253993,
      "grad_norm": 1.9296875,
      "grad_norm_var": 691.8675496419271,
      "learning_rate": 5e-05,
      "loss": 0.1953,
      "loss/crossentropy": 1.5371732711791992,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1572265625,
      "loss/idx": 0.0,
      "loss/logits": 0.03804505988955498,
      "step": 342
    },
    {
      "epoch": 0.0028268376505105617,
      "grad_norm": 2.828125,
      "grad_norm_var": 692.0889689127604,
      "learning_rate": 5e-05,
      "loss": 0.2334,
      "loss/crossentropy": 2.7439146041870117,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.177734375,
      "loss/idx": 0.0,
      "loss/logits": 0.055648088455200195,
      "step": 343
    },
    {
      "epoch": 0.0028350791596957236,
      "grad_norm": 2.171875,
      "grad_norm_var": 693.3022288004557,
      "learning_rate": 5e-05,
      "loss": 0.1965,
      "loss/crossentropy": 1.5956981182098389,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16015625,
      "loss/idx": 0.0,
      "loss/logits": 0.036296091973781586,
      "step": 344
    },
    {
      "epoch": 0.0028433206688808855,
      "grad_norm": 2.59375,
      "grad_norm_var": 3.4128326416015624,
      "learning_rate": 5e-05,
      "loss": 0.1868,
      "loss/crossentropy": 1.582602858543396,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1533203125,
      "loss/idx": 0.0,
      "loss/logits": 0.033465512096881866,
      "step": 345
    },
    {
      "epoch": 0.0028515621780660473,
      "grad_norm": 2.234375,
      "grad_norm_var": 3.3677101135253906,
      "learning_rate": 5e-05,
      "loss": 0.1981,
      "loss/crossentropy": 1.295432209968567,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16796875,
      "loss/idx": 0.0,
      "loss/logits": 0.030169658362865448,
      "step": 346
    },
    {
      "epoch": 0.0028598036872512092,
      "grad_norm": 2.4375,
      "grad_norm_var": 3.3456214904785155,
      "learning_rate": 5e-05,
      "loss": 0.2163,
      "loss/crossentropy": 1.2951956987380981,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.034686122089624405,
      "step": 347
    },
    {
      "epoch": 0.0028680451964363716,
      "grad_norm": 3.015625,
      "grad_norm_var": 3.293121083577474,
      "learning_rate": 5e-05,
      "loss": 0.2123,
      "loss/crossentropy": 0.4816242456436157,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.193359375,
      "loss/idx": 0.0,
      "loss/logits": 0.018970437347888947,
      "step": 348
    },
    {
      "epoch": 0.0028762867056215335,
      "grad_norm": 3.15625,
      "grad_norm_var": 3.2159624735514325,
      "learning_rate": 5e-05,
      "loss": 0.2762,
      "loss/crossentropy": 2.688483715057373,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2060546875,
      "loss/idx": 0.0,
      "loss/logits": 0.07011875510215759,
      "step": 349
    },
    {
      "epoch": 0.0028845282148066954,
      "grad_norm": 3.5625,
      "grad_norm_var": 3.2134356180826824,
      "learning_rate": 5e-05,
      "loss": 0.2319,
      "loss/crossentropy": 2.7942285537719727,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.050256311893463135,
      "step": 350
    },
    {
      "epoch": 0.0028927697239918572,
      "grad_norm": 2.890625,
      "grad_norm_var": 3.1917742411295573,
      "learning_rate": 5e-05,
      "loss": 0.2219,
      "loss/crossentropy": 0.3606606721878052,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.201171875,
      "loss/idx": 0.0,
      "loss/logits": 0.020754382014274597,
      "step": 351
    },
    {
      "epoch": 0.0029010112331770196,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.33584772745768227,
      "learning_rate": 5e-05,
      "loss": 0.2024,
      "loss/crossentropy": 1.9477823972702026,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.158203125,
      "loss/idx": 0.0,
      "loss/logits": 0.04415898397564888,
      "step": 352
    },
    {
      "epoch": 0.0029092527423621815,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.33877741495768227,
      "learning_rate": 5e-05,
      "loss": 0.2767,
      "loss/crossentropy": 1.250917673110962,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2314453125,
      "loss/idx": 0.0,
      "loss/logits": 0.04520602151751518,
      "step": 353
    },
    {
      "epoch": 0.0029174942515473434,
      "grad_norm": 6.28125,
      "grad_norm_var": 1.1211443583170573,
      "learning_rate": 5e-05,
      "loss": 0.3595,
      "loss/crossentropy": 2.2711970806121826,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.28125,
      "loss/idx": 0.0,
      "loss/logits": 0.07829815149307251,
      "step": 354
    },
    {
      "epoch": 0.0029257357607325053,
      "grad_norm": 3.1875,
      "grad_norm_var": 1.0229713439941406,
      "learning_rate": 5e-05,
      "loss": 0.319,
      "loss/crossentropy": 2.352555990219116,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.251953125,
      "loss/idx": 0.0,
      "loss/logits": 0.06703340262174606,
      "step": 355
    },
    {
      "epoch": 0.002933977269917667,
      "grad_norm": 7.3125,
      "grad_norm_var": 2.142752838134766,
      "learning_rate": 5e-05,
      "loss": 0.3474,
      "loss/crossentropy": 2.538165807723999,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2890625,
      "loss/idx": 0.0,
      "loss/logits": 0.05830331891775131,
      "step": 356
    },
    {
      "epoch": 0.0029422187791028295,
      "grad_norm": 6.53125,
      "grad_norm_var": 2.7735023498535156,
      "learning_rate": 5e-05,
      "loss": 0.222,
      "loss/crossentropy": 1.2392635345458984,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.19140625,
      "loss/idx": 0.0,
      "loss/logits": 0.030571604147553444,
      "step": 357
    },
    {
      "epoch": 0.0029504602882879914,
      "grad_norm": 2.140625,
      "grad_norm_var": 2.7326812744140625,
      "learning_rate": 5e-05,
      "loss": 0.1149,
      "loss/crossentropy": 0.3575584590435028,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.107421875,
      "loss/idx": 0.0,
      "loss/logits": 0.007437488064169884,
      "step": 358
    },
    {
      "epoch": 0.0029587017974731533,
      "grad_norm": 1.953125,
      "grad_norm_var": 2.8581207275390623,
      "learning_rate": 5e-05,
      "loss": 0.1523,
      "loss/crossentropy": 1.4491117000579834,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.126953125,
      "loss/idx": 0.0,
      "loss/logits": 0.025374623015522957,
      "step": 359
    },
    {
      "epoch": 0.002966943306658315,
      "grad_norm": 6.875,
      "grad_norm_var": 3.4463175455729167,
      "learning_rate": 5e-05,
      "loss": 0.3615,
      "loss/crossentropy": 2.15775203704834,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.294921875,
      "loss/idx": 0.0,
      "loss/logits": 0.06661273539066315,
      "step": 360
    },
    {
      "epoch": 0.002975184815843477,
      "grad_norm": 9.4375,
      "grad_norm_var": 5.334586588541667,
      "learning_rate": 5e-05,
      "loss": 0.2964,
      "loss/crossentropy": 1.3742177486419678,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.259765625,
      "loss/idx": 0.0,
      "loss/logits": 0.036625977605581284,
      "step": 361
    },
    {
      "epoch": 0.0029834263250286394,
      "grad_norm": 1.75,
      "grad_norm_var": 5.473623657226563,
      "learning_rate": 5e-05,
      "loss": 0.1747,
      "loss/crossentropy": 1.4426945447921753,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1455078125,
      "loss/idx": 0.0,
      "loss/logits": 0.02921513468027115,
      "step": 362
    },
    {
      "epoch": 0.0029916678342138013,
      "grad_norm": 1.6640625,
      "grad_norm_var": 5.685538482666016,
      "learning_rate": 5e-05,
      "loss": 0.1638,
      "loss/crossentropy": 1.559606909751892,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1357421875,
      "loss/idx": 0.0,
      "loss/logits": 0.028026653453707695,
      "step": 363
    },
    {
      "epoch": 0.002999909343398963,
      "grad_norm": 2.109375,
      "grad_norm_var": 5.865667470296224,
      "learning_rate": 5e-05,
      "loss": 0.1489,
      "loss/crossentropy": 0.7043201923370361,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.130859375,
      "loss/idx": 0.0,
      "loss/logits": 0.018008584156632423,
      "step": 364
    },
    {
      "epoch": 0.003008150852584125,
      "grad_norm": 4.1875,
      "grad_norm_var": 5.812695058186849,
      "learning_rate": 5e-05,
      "loss": 0.2217,
      "loss/crossentropy": 1.9148753881454468,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.177734375,
      "loss/idx": 0.0,
      "loss/logits": 0.0439751073718071,
      "step": 365
    },
    {
      "epoch": 0.0030163923617692874,
      "grad_norm": 4.125,
      "grad_norm_var": 5.792956288655599,
      "learning_rate": 5e-05,
      "loss": 0.3083,
      "loss/crossentropy": 2.424750328063965,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.23046875,
      "loss/idx": 0.0,
      "loss/logits": 0.07787832617759705,
      "step": 366
    },
    {
      "epoch": 0.0030246338709544493,
      "grad_norm": 2.09375,
      "grad_norm_var": 5.963744862874349,
      "learning_rate": 5e-05,
      "loss": 0.1791,
      "loss/crossentropy": 1.68095862865448,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.146484375,
      "loss/idx": 0.0,
      "loss/logits": 0.03266463428735733,
      "step": 367
    },
    {
      "epoch": 0.003032875380139611,
      "grad_norm": 11.875,
      "grad_norm_var": 9.52763646443685,
      "learning_rate": 5e-05,
      "loss": 0.5786,
      "loss/crossentropy": 1.7796623706817627,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.4765625,
      "loss/idx": 0.0,
      "loss/logits": 0.10202518105506897,
      "step": 368
    },
    {
      "epoch": 0.003041116889324773,
      "grad_norm": 2.953125,
      "grad_norm_var": 9.516863759358724,
      "learning_rate": 5e-05,
      "loss": 0.2031,
      "loss/crossentropy": 1.285621166229248,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.177734375,
      "loss/idx": 0.0,
      "loss/logits": 0.025359109044075012,
      "step": 369
    },
    {
      "epoch": 0.003049358398509935,
      "grad_norm": 1.953125,
      "grad_norm_var": 9.749049631754557,
      "learning_rate": 5e-05,
      "loss": 0.176,
      "loss/crossentropy": 1.5697388648986816,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.14453125,
      "loss/idx": 0.0,
      "loss/logits": 0.03151218220591545,
      "step": 370
    },
    {
      "epoch": 0.0030575999076950973,
      "grad_norm": 3.0,
      "grad_norm_var": 9.781166330973308,
      "learning_rate": 5e-05,
      "loss": 0.2175,
      "loss/crossentropy": 1.4509150981903076,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1845703125,
      "loss/idx": 0.0,
      "loss/logits": 0.03292187303304672,
      "step": 371
    },
    {
      "epoch": 0.003065841416880259,
      "grad_norm": 1.75,
      "grad_norm_var": 9.534547678629558,
      "learning_rate": 5e-05,
      "loss": 0.1677,
      "loss/crossentropy": 2.5047202110290527,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1318359375,
      "loss/idx": 0.0,
      "loss/logits": 0.03586728125810623,
      "step": 372
    },
    {
      "epoch": 0.003074082926065421,
      "grad_norm": 5.5,
      "grad_norm_var": 9.256392161051432,
      "learning_rate": 5e-05,
      "loss": 0.2845,
      "loss/crossentropy": 1.728163719177246,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.23828125,
      "loss/idx": 0.0,
      "loss/logits": 0.04620472714304924,
      "step": 373
    },
    {
      "epoch": 0.003082324435250583,
      "grad_norm": 3.109375,
      "grad_norm_var": 9.079986317952473,
      "learning_rate": 5e-05,
      "loss": 0.2467,
      "loss/crossentropy": 2.323497772216797,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.201171875,
      "loss/idx": 0.0,
      "loss/logits": 0.04549071192741394,
      "step": 374
    },
    {
      "epoch": 0.003090565944435745,
      "grad_norm": 2.734375,
      "grad_norm_var": 8.902730051676432,
      "learning_rate": 5e-05,
      "loss": 0.1624,
      "loss/crossentropy": 1.6974822282791138,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1357421875,
      "loss/idx": 0.0,
      "loss/logits": 0.026702899485826492,
      "step": 375
    },
    {
      "epoch": 0.003098807453620907,
      "grad_norm": 2.046875,
      "grad_norm_var": 8.553822580973307,
      "learning_rate": 5e-05,
      "loss": 0.1575,
      "loss/crossentropy": 1.636716604232788,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12890625,
      "loss/idx": 0.0,
      "loss/logits": 0.02862347848713398,
      "step": 376
    },
    {
      "epoch": 0.003107048962806069,
      "grad_norm": 3.953125,
      "grad_norm_var": 6.287947336832683,
      "learning_rate": 5e-05,
      "loss": 0.366,
      "loss/crossentropy": 2.5682785511016846,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.28125,
      "loss/idx": 0.0,
      "loss/logits": 0.08478732407093048,
      "step": 377
    },
    {
      "epoch": 0.003115290471991231,
      "grad_norm": 4.4375,
      "grad_norm_var": 6.139050038655599,
      "learning_rate": 5e-05,
      "loss": 0.236,
      "loss/crossentropy": 1.9300963878631592,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1884765625,
      "loss/idx": 0.0,
      "loss/logits": 0.04753483831882477,
      "step": 378
    },
    {
      "epoch": 0.003123531981176393,
      "grad_norm": 8.0,
      "grad_norm_var": 7.0182851155598955,
      "learning_rate": 5e-05,
      "loss": 0.3625,
      "loss/crossentropy": 1.655861496925354,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2890625,
      "loss/idx": 0.0,
      "loss/logits": 0.0734243243932724,
      "step": 379
    },
    {
      "epoch": 0.003131773490361555,
      "grad_norm": 4.71875,
      "grad_norm_var": 6.789794921875,
      "learning_rate": 5e-05,
      "loss": 0.3235,
      "loss/crossentropy": 2.3060801029205322,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2578125,
      "loss/idx": 0.0,
      "loss/logits": 0.06571874022483826,
      "step": 380
    },
    {
      "epoch": 0.003140014999546717,
      "grad_norm": 3.640625,
      "grad_norm_var": 6.8059234619140625,
      "learning_rate": 5e-05,
      "loss": 0.2763,
      "loss/crossentropy": 2.67515230178833,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2236328125,
      "loss/idx": 0.0,
      "loss/logits": 0.05268421396613121,
      "step": 381
    },
    {
      "epoch": 0.003148256508731879,
      "grad_norm": 8.6875,
      "grad_norm_var": 8.111107381184896,
      "learning_rate": 5e-05,
      "loss": 0.2852,
      "loss/crossentropy": 2.6763105392456055,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.06450507789850235,
      "step": 382
    },
    {
      "epoch": 0.003156498017917041,
      "grad_norm": 3.78125,
      "grad_norm_var": 7.769432576497396,
      "learning_rate": 5e-05,
      "loss": 0.2415,
      "loss/crossentropy": 2.8496878147125244,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.189453125,
      "loss/idx": 0.0,
      "loss/logits": 0.052030615508556366,
      "step": 383
    },
    {
      "epoch": 0.0031647395271022028,
      "grad_norm": 4.21875,
      "grad_norm_var": 3.9133941650390627,
      "learning_rate": 5e-05,
      "loss": 0.1925,
      "loss/crossentropy": 1.3341301679611206,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1630859375,
      "loss/idx": 0.0,
      "loss/logits": 0.02942117676138878,
      "step": 384
    },
    {
      "epoch": 0.003172981036287365,
      "grad_norm": 1.984375,
      "grad_norm_var": 4.1111806233723955,
      "learning_rate": 5e-05,
      "loss": 0.1985,
      "loss/crossentropy": 2.383344888687134,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1533203125,
      "loss/idx": 0.0,
      "loss/logits": 0.04519602656364441,
      "step": 385
    },
    {
      "epoch": 0.003181222545472527,
      "grad_norm": 2.046875,
      "grad_norm_var": 4.0865224202473955,
      "learning_rate": 5e-05,
      "loss": 0.235,
      "loss/crossentropy": 2.4512088298797607,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1806640625,
      "loss/idx": 0.0,
      "loss/logits": 0.054316744208335876,
      "step": 386
    },
    {
      "epoch": 0.003189464054657689,
      "grad_norm": 2.03125,
      "grad_norm_var": 4.271190388997396,
      "learning_rate": 5e-05,
      "loss": 0.187,
      "loss/crossentropy": 1.7021174430847168,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15234375,
      "loss/idx": 0.0,
      "loss/logits": 0.034697070717811584,
      "step": 387
    },
    {
      "epoch": 0.003197705563842851,
      "grad_norm": 6.78125,
      "grad_norm_var": 4.400902303059896,
      "learning_rate": 5e-05,
      "loss": 0.3263,
      "loss/crossentropy": 2.0133919715881348,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25,
      "loss/idx": 0.0,
      "loss/logits": 0.07632862031459808,
      "step": 388
    },
    {
      "epoch": 0.0032059470730280127,
      "grad_norm": 2.484375,
      "grad_norm_var": 4.458426920572917,
      "learning_rate": 5e-05,
      "loss": 0.2092,
      "loss/crossentropy": 2.6211116313934326,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.162109375,
      "loss/idx": 0.0,
      "loss/logits": 0.04707195237278938,
      "step": 389
    },
    {
      "epoch": 0.003214188582213175,
      "grad_norm": 1.671875,
      "grad_norm_var": 4.766141764322916,
      "learning_rate": 5e-05,
      "loss": 0.1619,
      "loss/crossentropy": 1.861954689025879,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1298828125,
      "loss/idx": 0.0,
      "loss/logits": 0.031997717916965485,
      "step": 390
    },
    {
      "epoch": 0.003222430091398337,
      "grad_norm": 3.953125,
      "grad_norm_var": 4.661246744791667,
      "learning_rate": 5e-05,
      "loss": 0.2297,
      "loss/crossentropy": 1.4026638269424438,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.19140625,
      "loss/idx": 0.0,
      "loss/logits": 0.03833915665745735,
      "step": 391
    },
    {
      "epoch": 0.003230671600583499,
      "grad_norm": 4.71875,
      "grad_norm_var": 4.401887003580729,
      "learning_rate": 5e-05,
      "loss": 0.3195,
      "loss/crossentropy": 2.687175750732422,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.251953125,
      "loss/idx": 0.0,
      "loss/logits": 0.06756812334060669,
      "step": 392
    },
    {
      "epoch": 0.0032389131097686607,
      "grad_norm": 1.8828125,
      "grad_norm_var": 4.736358388264974,
      "learning_rate": 5e-05,
      "loss": 0.1761,
      "loss/crossentropy": 1.6555976867675781,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1435546875,
      "loss/idx": 0.0,
      "loss/logits": 0.032518401741981506,
      "step": 393
    },
    {
      "epoch": 0.003247154618953823,
      "grad_norm": 3.640625,
      "grad_norm_var": 4.736462148030599,
      "learning_rate": 5e-05,
      "loss": 0.3446,
      "loss/crossentropy": 2.2599704265594482,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.279296875,
      "loss/idx": 0.0,
      "loss/logits": 0.06530951708555222,
      "step": 394
    },
    {
      "epoch": 0.003255396128138985,
      "grad_norm": 1.8828125,
      "grad_norm_var": 3.825056966145833,
      "learning_rate": 5e-05,
      "loss": 0.204,
      "loss/crossentropy": 2.564816951751709,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15625,
      "loss/idx": 0.0,
      "loss/logits": 0.04773015156388283,
      "step": 395
    },
    {
      "epoch": 0.003263637637324147,
      "grad_norm": 2.390625,
      "grad_norm_var": 3.8267242431640627,
      "learning_rate": 5e-05,
      "loss": 0.1961,
      "loss/crossentropy": 2.249958038330078,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15625,
      "loss/idx": 0.0,
      "loss/logits": 0.039828941226005554,
      "step": 396
    },
    {
      "epoch": 0.0032718791465093087,
      "grad_norm": 1.3671875,
      "grad_norm_var": 4.103281402587891,
      "learning_rate": 5e-05,
      "loss": 0.1342,
      "loss/crossentropy": 1.058944821357727,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11474609375,
      "loss/idx": 0.0,
      "loss/logits": 0.019409142434597015,
      "step": 397
    },
    {
      "epoch": 0.0032801206556944706,
      "grad_norm": 13.375,
      "grad_norm_var": 8.815500640869141,
      "learning_rate": 5e-05,
      "loss": 0.3495,
      "loss/crossentropy": 2.6670608520507812,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.28125,
      "loss/idx": 0.0,
      "loss/logits": 0.06825672090053558,
      "step": 398
    },
    {
      "epoch": 0.003288362164879633,
      "grad_norm": 2.140625,
      "grad_norm_var": 8.952433013916016,
      "learning_rate": 5e-05,
      "loss": 0.2057,
      "loss/crossentropy": 2.589582920074463,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1669921875,
      "loss/idx": 0.0,
      "loss/logits": 0.038732096552848816,
      "step": 399
    },
    {
      "epoch": 0.003296603674064795,
      "grad_norm": 2.265625,
      "grad_norm_var": 9.012959543863932,
      "learning_rate": 5e-05,
      "loss": 0.134,
      "loss/crossentropy": 0.9774411916732788,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1171875,
      "loss/idx": 0.0,
      "loss/logits": 0.01683815009891987,
      "step": 400
    },
    {
      "epoch": 0.0033048451832499567,
      "grad_norm": 5.3125,
      "grad_norm_var": 9.071028391520182,
      "learning_rate": 5e-05,
      "loss": 0.3151,
      "loss/crossentropy": 2.308528184890747,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2578125,
      "loss/idx": 0.0,
      "loss/logits": 0.057268112897872925,
      "step": 401
    },
    {
      "epoch": 0.0033130866924351186,
      "grad_norm": 1.75,
      "grad_norm_var": 9.138868967692057,
      "learning_rate": 5e-05,
      "loss": 0.1162,
      "loss/crossentropy": 0.1983821541070938,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1083984375,
      "loss/idx": 0.0,
      "loss/logits": 0.007823487743735313,
      "step": 402
    },
    {
      "epoch": 0.0033213282016202805,
      "grad_norm": 3.578125,
      "grad_norm_var": 8.964241282145183,
      "learning_rate": 5e-05,
      "loss": 0.1463,
      "loss/crossentropy": 0.282149076461792,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1337890625,
      "loss/idx": 0.0,
      "loss/logits": 0.012518523260951042,
      "step": 403
    },
    {
      "epoch": 0.003329569710805443,
      "grad_norm": 5.4375,
      "grad_norm_var": 8.52498550415039,
      "learning_rate": 5e-05,
      "loss": 0.3084,
      "loss/crossentropy": 2.364654302597046,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2333984375,
      "loss/idx": 0.0,
      "loss/logits": 0.07504182308912277,
      "step": 404
    },
    {
      "epoch": 0.0033378112199906047,
      "grad_norm": 6.40625,
      "grad_norm_var": 8.894703928629557,
      "learning_rate": 5e-05,
      "loss": 0.2316,
      "loss/crossentropy": 1.4973769187927246,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1953125,
      "loss/idx": 0.0,
      "loss/logits": 0.036246173083782196,
      "step": 405
    },
    {
      "epoch": 0.0033460527291757666,
      "grad_norm": 14.9375,
      "grad_norm_var": 16.021522776285806,
      "learning_rate": 5e-05,
      "loss": 0.3451,
      "loss/crossentropy": 2.6580722332000732,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.28515625,
      "loss/idx": 0.0,
      "loss/logits": 0.05991474539041519,
      "step": 406
    },
    {
      "epoch": 0.0033542942383609285,
      "grad_norm": 1.7109375,
      "grad_norm_var": 16.55601298014323,
      "learning_rate": 5e-05,
      "loss": 0.1524,
      "loss/crossentropy": 2.4848172664642334,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1201171875,
      "loss/idx": 0.0,
      "loss/logits": 0.0323210209608078,
      "step": 407
    },
    {
      "epoch": 0.003362535747546091,
      "grad_norm": 25.625,
      "grad_norm_var": 44.34390360514323,
      "learning_rate": 5e-05,
      "loss": 0.3535,
      "loss/crossentropy": 2.135502338409424,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.28515625,
      "loss/idx": 0.0,
      "loss/logits": 0.06830734014511108,
      "step": 408
    },
    {
      "epoch": 0.0033707772567312527,
      "grad_norm": 2.15625,
      "grad_norm_var": 44.203704579671225,
      "learning_rate": 5e-05,
      "loss": 0.1807,
      "loss/crossentropy": 1.5167546272277832,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1484375,
      "loss/idx": 0.0,
      "loss/logits": 0.032285355031490326,
      "step": 409
    },
    {
      "epoch": 0.0033790187659164146,
      "grad_norm": 2.25,
      "grad_norm_var": 44.73858820597331,
      "learning_rate": 5e-05,
      "loss": 0.1845,
      "loss/crossentropy": 2.5554723739624023,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.146484375,
      "loss/idx": 0.0,
      "loss/logits": 0.03800758719444275,
      "step": 410
    },
    {
      "epoch": 0.0033872602751015765,
      "grad_norm": 5.125,
      "grad_norm_var": 43.70799051920573,
      "learning_rate": 5e-05,
      "loss": 0.1819,
      "loss/crossentropy": 1.3965002298355103,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.162109375,
      "loss/idx": 0.0,
      "loss/logits": 0.019777944311499596,
      "step": 411
    },
    {
      "epoch": 0.0033955017842867384,
      "grad_norm": 2.640625,
      "grad_norm_var": 43.591942342122394,
      "learning_rate": 5e-05,
      "loss": 0.2145,
      "loss/crossentropy": 1.4451302289962769,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.169921875,
      "loss/idx": 0.0,
      "loss/logits": 0.04454413428902626,
      "step": 412
    },
    {
      "epoch": 0.0034037432934719007,
      "grad_norm": 2.125,
      "grad_norm_var": 43.159234364827476,
      "learning_rate": 5e-05,
      "loss": 0.1472,
      "loss/crossentropy": 0.820690929889679,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1259765625,
      "loss/idx": 0.0,
      "loss/logits": 0.02119414508342743,
      "step": 413
    },
    {
      "epoch": 0.0034119848026570626,
      "grad_norm": 2.546875,
      "grad_norm_var": 39.915026601155596,
      "learning_rate": 5e-05,
      "loss": 0.189,
      "loss/crossentropy": 2.5425262451171875,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1484375,
      "loss/idx": 0.0,
      "loss/logits": 0.0405312180519104,
      "step": 414
    },
    {
      "epoch": 0.0034202263118422245,
      "grad_norm": 1.96875,
      "grad_norm_var": 39.991005198160806,
      "learning_rate": 5e-05,
      "loss": 0.161,
      "loss/crossentropy": 1.5188648700714111,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1337890625,
      "loss/idx": 0.0,
      "loss/logits": 0.027209658175706863,
      "step": 415
    },
    {
      "epoch": 0.0034284678210273864,
      "grad_norm": 3.40625,
      "grad_norm_var": 39.60099461873372,
      "learning_rate": 5e-05,
      "loss": 0.2137,
      "loss/crossentropy": 1.8609509468078613,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.173828125,
      "loss/idx": 0.0,
      "loss/logits": 0.03991951048374176,
      "step": 416
    },
    {
      "epoch": 0.0034367093302125483,
      "grad_norm": 4.03125,
      "grad_norm_var": 39.72469863891602,
      "learning_rate": 5e-05,
      "loss": 0.3144,
      "loss/crossentropy": 2.865185260772705,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.244140625,
      "loss/idx": 0.0,
      "loss/logits": 0.07025311887264252,
      "step": 417
    },
    {
      "epoch": 0.0034449508393977106,
      "grad_norm": 5.0,
      "grad_norm_var": 38.82227350870768,
      "learning_rate": 5e-05,
      "loss": 0.2031,
      "loss/crossentropy": 1.3800697326660156,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.17578125,
      "loss/idx": 0.0,
      "loss/logits": 0.027345672249794006,
      "step": 418
    },
    {
      "epoch": 0.0034531923485828725,
      "grad_norm": 2.921875,
      "grad_norm_var": 39.02252375284831,
      "learning_rate": 5e-05,
      "loss": 0.1523,
      "loss/crossentropy": 0.4079228937625885,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.13671875,
      "loss/idx": 0.0,
      "loss/logits": 0.015567103400826454,
      "step": 419
    },
    {
      "epoch": 0.0034614338577680344,
      "grad_norm": 4.96875,
      "grad_norm_var": 39.04129206339518,
      "learning_rate": 5e-05,
      "loss": 0.1958,
      "loss/crossentropy": 2.5757017135620117,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1640625,
      "loss/idx": 0.0,
      "loss/logits": 0.031719379127025604,
      "step": 420
    },
    {
      "epoch": 0.0034696753669531963,
      "grad_norm": 2.15625,
      "grad_norm_var": 39.65029271443685,
      "learning_rate": 5e-05,
      "loss": 0.2189,
      "loss/crossentropy": 1.558744192123413,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.177734375,
      "loss/idx": 0.0,
      "loss/logits": 0.04112962260842323,
      "step": 421
    },
    {
      "epoch": 0.0034779168761383586,
      "grad_norm": 2.4375,
      "grad_norm_var": 33.22532526652018,
      "learning_rate": 5e-05,
      "loss": 0.2209,
      "loss/crossentropy": 2.4556710720062256,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.171875,
      "loss/idx": 0.0,
      "loss/logits": 0.04905615746974945,
      "step": 422
    },
    {
      "epoch": 0.0034861583853235205,
      "grad_norm": 4.03125,
      "grad_norm_var": 32.71692606608073,
      "learning_rate": 5e-05,
      "loss": 0.2253,
      "loss/crossentropy": 2.399423360824585,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.18359375,
      "loss/idx": 0.0,
      "loss/logits": 0.04174065962433815,
      "step": 423
    },
    {
      "epoch": 0.0034943998945086824,
      "grad_norm": 6.53125,
      "grad_norm_var": 1.9431711832682292,
      "learning_rate": 5e-05,
      "loss": 0.3418,
      "loss/crossentropy": 1.4518251419067383,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.30859375,
      "loss/idx": 0.0,
      "loss/logits": 0.03323998302221298,
      "step": 424
    },
    {
      "epoch": 0.0035026414036938443,
      "grad_norm": 2.703125,
      "grad_norm_var": 1.87164306640625,
      "learning_rate": 5e-05,
      "loss": 0.2027,
      "loss/crossentropy": 2.5503337383270264,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1611328125,
      "loss/idx": 0.0,
      "loss/logits": 0.04152850806713104,
      "step": 425
    },
    {
      "epoch": 0.0035108829128790062,
      "grad_norm": 3.140625,
      "grad_norm_var": 1.7813629150390624,
      "learning_rate": 5e-05,
      "loss": 0.21,
      "loss/crossentropy": 2.405348539352417,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.169921875,
      "loss/idx": 0.0,
      "loss/logits": 0.0400310643017292,
      "step": 426
    },
    {
      "epoch": 0.0035191244220641685,
      "grad_norm": 2.078125,
      "grad_norm_var": 1.694677734375,
      "learning_rate": 5e-05,
      "loss": 0.2251,
      "loss/crossentropy": 2.5670955181121826,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.173828125,
      "loss/idx": 0.0,
      "loss/logits": 0.05131090059876442,
      "step": 427
    },
    {
      "epoch": 0.0035273659312493304,
      "grad_norm": 5.46875,
      "grad_norm_var": 1.9485829671223958,
      "learning_rate": 5e-05,
      "loss": 0.2417,
      "loss/crossentropy": 1.348537564277649,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.208984375,
      "loss/idx": 0.0,
      "loss/logits": 0.032746195793151855,
      "step": 428
    },
    {
      "epoch": 0.0035356074404344923,
      "grad_norm": 2.796875,
      "grad_norm_var": 1.8563313802083334,
      "learning_rate": 5e-05,
      "loss": 0.2383,
      "loss/crossentropy": 2.7552454471588135,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.189453125,
      "loss/idx": 0.0,
      "loss/logits": 0.04886690154671669,
      "step": 429
    },
    {
      "epoch": 0.0035438489496196542,
      "grad_norm": 2.703125,
      "grad_norm_var": 1.83775634765625,
      "learning_rate": 5e-05,
      "loss": 0.3084,
      "loss/crossentropy": 2.6097259521484375,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2578125,
      "loss/idx": 0.0,
      "loss/logits": 0.05057002976536751,
      "step": 430
    },
    {
      "epoch": 0.003552090458804816,
      "grad_norm": 4.3125,
      "grad_norm_var": 1.695849609375,
      "learning_rate": 5e-05,
      "loss": 0.2062,
      "loss/crossentropy": 1.8095245361328125,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.169921875,
      "loss/idx": 0.0,
      "loss/logits": 0.036256495863199234,
      "step": 431
    },
    {
      "epoch": 0.0035603319679899785,
      "grad_norm": 6.3125,
      "grad_norm_var": 2.12232666015625,
      "learning_rate": 5e-05,
      "loss": 0.2564,
      "loss/crossentropy": 2.088921546936035,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.201171875,
      "loss/idx": 0.0,
      "loss/logits": 0.0551944300532341,
      "step": 432
    },
    {
      "epoch": 0.0035685734771751403,
      "grad_norm": 42.0,
      "grad_norm_var": 93.143505859375,
      "learning_rate": 5e-05,
      "loss": 0.7318,
      "loss/crossentropy": 2.4523119926452637,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.5859375,
      "loss/idx": 0.0,
      "loss/logits": 0.14583945274353027,
      "step": 433
    },
    {
      "epoch": 0.0035768149863603022,
      "grad_norm": 3.09375,
      "grad_norm_var": 93.68137613932292,
      "learning_rate": 5e-05,
      "loss": 0.2037,
      "loss/crossentropy": 2.0388007164001465,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1689453125,
      "loss/idx": 0.0,
      "loss/logits": 0.03475724905729294,
      "step": 434
    },
    {
      "epoch": 0.003585056495545464,
      "grad_norm": 4.1875,
      "grad_norm_var": 93.24458719889323,
      "learning_rate": 5e-05,
      "loss": 0.2542,
      "loss/crossentropy": 2.6730620861053467,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1953125,
      "loss/idx": 0.0,
      "loss/logits": 0.05885430425405502,
      "step": 435
    },
    {
      "epoch": 0.0035932980047306265,
      "grad_norm": 3.34375,
      "grad_norm_var": 93.6726308186849,
      "learning_rate": 5e-05,
      "loss": 0.1555,
      "loss/crossentropy": 0.4195747375488281,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1416015625,
      "loss/idx": 0.0,
      "loss/logits": 0.013927996158599854,
      "step": 436
    },
    {
      "epoch": 0.0036015395139157884,
      "grad_norm": 3.421875,
      "grad_norm_var": 93.11043294270833,
      "learning_rate": 5e-05,
      "loss": 0.254,
      "loss/crossentropy": 1.7030478715896606,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.208984375,
      "loss/idx": 0.0,
      "loss/logits": 0.04505797103047371,
      "step": 437
    },
    {
      "epoch": 0.0036097810231009502,
      "grad_norm": 1.71875,
      "grad_norm_var": 93.49947509765624,
      "learning_rate": 5e-05,
      "loss": 0.1532,
      "loss/crossentropy": 0.4963390529155731,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1357421875,
      "loss/idx": 0.0,
      "loss/logits": 0.017449375241994858,
      "step": 438
    },
    {
      "epoch": 0.003618022532286112,
      "grad_norm": 3.125,
      "grad_norm_var": 93.80262044270833,
      "learning_rate": 5e-05,
      "loss": 0.2339,
      "loss/crossentropy": 2.744438648223877,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.05223686248064041,
      "step": 439
    },
    {
      "epoch": 0.003626264041471274,
      "grad_norm": 1.1875,
      "grad_norm_var": 95.25058186848959,
      "learning_rate": 5e-05,
      "loss": 0.1237,
      "loss/crossentropy": 0.5037131905555725,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.109375,
      "loss/idx": 0.0,
      "loss/logits": 0.014304354786872864,
      "step": 440
    },
    {
      "epoch": 0.0036345055506564364,
      "grad_norm": 4.5,
      "grad_norm_var": 94.72848205566406,
      "learning_rate": 5e-05,
      "loss": 0.1741,
      "loss/crossentropy": 1.277227759361267,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15234375,
      "loss/idx": 0.0,
      "loss/logits": 0.021763307973742485,
      "step": 441
    },
    {
      "epoch": 0.0036427470598415983,
      "grad_norm": 8.5625,
      "grad_norm_var": 94.61658528645833,
      "learning_rate": 5e-05,
      "loss": 0.3688,
      "loss/crossentropy": 2.51446533203125,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2890625,
      "loss/idx": 0.0,
      "loss/logits": 0.07975561916828156,
      "step": 442
    },
    {
      "epoch": 0.00365098856902676,
      "grad_norm": 2.515625,
      "grad_norm_var": 94.38951822916667,
      "learning_rate": 5e-05,
      "loss": 0.2143,
      "loss/crossentropy": 2.614020347595215,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.169921875,
      "loss/idx": 0.0,
      "loss/logits": 0.044419120997190475,
      "step": 443
    },
    {
      "epoch": 0.003659230078211922,
      "grad_norm": 2.203125,
      "grad_norm_var": 95.37579650878907,
      "learning_rate": 5e-05,
      "loss": 0.1516,
      "loss/crossentropy": 0.43124791979789734,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.01679244264960289,
      "step": 444
    },
    {
      "epoch": 0.0036674715873970844,
      "grad_norm": 1.4609375,
      "grad_norm_var": 96.05772476196289,
      "learning_rate": 5e-05,
      "loss": 0.1449,
      "loss/crossentropy": 1.3757065534591675,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.119140625,
      "loss/idx": 0.0,
      "loss/logits": 0.02579795941710472,
      "step": 445
    },
    {
      "epoch": 0.0036757130965822463,
      "grad_norm": 2.859375,
      "grad_norm_var": 95.99232559204101,
      "learning_rate": 5e-05,
      "loss": 0.2612,
      "loss/crossentropy": 1.5693522691726685,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2265625,
      "loss/idx": 0.0,
      "loss/logits": 0.034596264362335205,
      "step": 446
    },
    {
      "epoch": 0.003683954605767408,
      "grad_norm": 2.25,
      "grad_norm_var": 96.70171279907227,
      "learning_rate": 5e-05,
      "loss": 0.1481,
      "loss/crossentropy": 1.425809621810913,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12060546875,
      "loss/idx": 0.0,
      "loss/logits": 0.02751866541802883,
      "step": 447
    },
    {
      "epoch": 0.00369219611495257,
      "grad_norm": 4.53125,
      "grad_norm_var": 96.77743911743164,
      "learning_rate": 5e-05,
      "loss": 0.2282,
      "loss/crossentropy": 1.8082743883132935,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1875,
      "loss/idx": 0.0,
      "loss/logits": 0.04072072356939316,
      "step": 448
    },
    {
      "epoch": 0.003700437624137732,
      "grad_norm": 4.5,
      "grad_norm_var": 3.0933570861816406,
      "learning_rate": 5e-05,
      "loss": 0.284,
      "loss/crossentropy": 0.5547680854797363,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25,
      "loss/idx": 0.0,
      "loss/logits": 0.0339670293033123,
      "step": 449
    },
    {
      "epoch": 0.0037086791333228943,
      "grad_norm": 4.25,
      "grad_norm_var": 3.1387489318847654,
      "learning_rate": 5e-05,
      "loss": 0.2519,
      "loss/crossentropy": 1.6840208768844604,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.205078125,
      "loss/idx": 0.0,
      "loss/logits": 0.04682979732751846,
      "step": 450
    },
    {
      "epoch": 0.003716920642508056,
      "grad_norm": 3.765625,
      "grad_norm_var": 3.1063392639160154,
      "learning_rate": 5e-05,
      "loss": 0.2045,
      "loss/crossentropy": 2.407160520553589,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.162109375,
      "loss/idx": 0.0,
      "loss/logits": 0.04241305589675903,
      "step": 451
    },
    {
      "epoch": 0.003725162151693218,
      "grad_norm": 5.6875,
      "grad_norm_var": 3.4360816955566404,
      "learning_rate": 5e-05,
      "loss": 0.3723,
      "loss/crossentropy": 2.6594908237457275,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.279296875,
      "loss/idx": 0.0,
      "loss/logits": 0.09303879737854004,
      "step": 452
    },
    {
      "epoch": 0.00373340366087838,
      "grad_norm": 1.6328125,
      "grad_norm_var": 3.6628011067708335,
      "learning_rate": 5e-05,
      "loss": 0.118,
      "loss/crossentropy": 0.4520578682422638,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1044921875,
      "loss/idx": 0.0,
      "loss/logits": 0.01347460225224495,
      "step": 453
    },
    {
      "epoch": 0.003741645170063542,
      "grad_norm": 2.15625,
      "grad_norm_var": 3.5754150390625,
      "learning_rate": 5e-05,
      "loss": 0.2743,
      "loss/crossentropy": 2.884896755218506,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2265625,
      "loss/idx": 0.0,
      "loss/logits": 0.04774241894483566,
      "step": 454
    },
    {
      "epoch": 0.003749886679248704,
      "grad_norm": 1.8359375,
      "grad_norm_var": 3.7349952697753905,
      "learning_rate": 5e-05,
      "loss": 0.1811,
      "loss/crossentropy": 2.609929323196411,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.146484375,
      "loss/idx": 0.0,
      "loss/logits": 0.034633196890354156,
      "step": 455
    },
    {
      "epoch": 0.003758128188433866,
      "grad_norm": 10.6875,
      "grad_norm_var": 6.612827301025391,
      "learning_rate": 5e-05,
      "loss": 0.7979,
      "loss/crossentropy": 2.925989866256714,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.5390625,
      "loss/idx": 0.0,
      "loss/logits": 0.2587950825691223,
      "step": 456
    },
    {
      "epoch": 0.003766369697619028,
      "grad_norm": 3.109375,
      "grad_norm_var": 6.634012603759766,
      "learning_rate": 5e-05,
      "loss": 0.2532,
      "loss/crossentropy": 2.1211068630218506,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.193359375,
      "loss/idx": 0.0,
      "loss/logits": 0.059833116829395294,
      "step": 457
    },
    {
      "epoch": 0.00377461120680419,
      "grad_norm": 1.8359375,
      "grad_norm_var": 5.25826416015625,
      "learning_rate": 5e-05,
      "loss": 0.1663,
      "loss/crossentropy": 2.170849323272705,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1337890625,
      "loss/idx": 0.0,
      "loss/logits": 0.03252778202295303,
      "step": 458
    },
    {
      "epoch": 0.003782852715989352,
      "grad_norm": 1.1640625,
      "grad_norm_var": 5.541731516520183,
      "learning_rate": 5e-05,
      "loss": 0.1449,
      "loss/crossentropy": 1.5572426319122314,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.123046875,
      "loss/idx": 0.0,
      "loss/logits": 0.021882327273488045,
      "step": 459
    },
    {
      "epoch": 0.003791094225174514,
      "grad_norm": 1.96875,
      "grad_norm_var": 5.581648508707683,
      "learning_rate": 5e-05,
      "loss": 0.1801,
      "loss/crossentropy": 2.4034504890441895,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.03750108927488327,
      "step": 460
    },
    {
      "epoch": 0.003799335734359676,
      "grad_norm": 1.46875,
      "grad_norm_var": 5.579678344726562,
      "learning_rate": 5e-05,
      "loss": 0.1353,
      "loss/crossentropy": 2.3504481315612793,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1103515625,
      "loss/idx": 0.0,
      "loss/logits": 0.024939250200986862,
      "step": 461
    },
    {
      "epoch": 0.003807577243544838,
      "grad_norm": 4.53125,
      "grad_norm_var": 5.643570963541666,
      "learning_rate": 5e-05,
      "loss": 0.1909,
      "loss/crossentropy": 0.8316883444786072,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16796875,
      "loss/idx": 0.0,
      "loss/logits": 0.022978752851486206,
      "step": 462
    },
    {
      "epoch": 0.0038158187527299998,
      "grad_norm": 3.46875,
      "grad_norm_var": 5.539628092447916,
      "learning_rate": 5e-05,
      "loss": 0.2104,
      "loss/crossentropy": 2.7462053298950195,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1640625,
      "loss/idx": 0.0,
      "loss/logits": 0.046341672539711,
      "step": 463
    },
    {
      "epoch": 0.003824060261915162,
      "grad_norm": 2.4375,
      "grad_norm_var": 5.536083984375,
      "learning_rate": 5e-05,
      "loss": 0.1901,
      "loss/crossentropy": 1.570056676864624,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16015625,
      "loss/idx": 0.0,
      "loss/logits": 0.02994626574218273,
      "step": 464
    },
    {
      "epoch": 0.003832301771100324,
      "grad_norm": 5.125,
      "grad_norm_var": 5.651643880208334,
      "learning_rate": 5e-05,
      "loss": 0.2886,
      "loss/crossentropy": 3.014599084854126,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.234375,
      "loss/idx": 0.0,
      "loss/logits": 0.05423382669687271,
      "step": 465
    },
    {
      "epoch": 0.003840543280285486,
      "grad_norm": 4.65625,
      "grad_norm_var": 5.705546061197917,
      "learning_rate": 5e-05,
      "loss": 0.2568,
      "loss/crossentropy": 2.5307607650756836,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.212890625,
      "loss/idx": 0.0,
      "loss/logits": 0.043907828629016876,
      "step": 466
    },
    {
      "epoch": 0.0038487847894706478,
      "grad_norm": 2.65625,
      "grad_norm_var": 5.738841756184896,
      "learning_rate": 5e-05,
      "loss": 0.1794,
      "loss/crossentropy": 2.301478624343872,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.14453125,
      "loss/idx": 0.0,
      "loss/logits": 0.034871190786361694,
      "step": 467
    },
    {
      "epoch": 0.0038570262986558097,
      "grad_norm": 2.3125,
      "grad_norm_var": 5.421996053059896,
      "learning_rate": 5e-05,
      "loss": 0.1572,
      "loss/crossentropy": 2.81413197517395,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.03511942923069,
      "step": 468
    },
    {
      "epoch": 0.003865267807840972,
      "grad_norm": 3.234375,
      "grad_norm_var": 5.24969253540039,
      "learning_rate": 5e-05,
      "loss": 0.2422,
      "loss/crossentropy": 2.552509069442749,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.193359375,
      "loss/idx": 0.0,
      "loss/logits": 0.048864759504795074,
      "step": 469
    },
    {
      "epoch": 0.003873509317026134,
      "grad_norm": 2.65625,
      "grad_norm_var": 5.189699045817057,
      "learning_rate": 5e-05,
      "loss": 0.2269,
      "loss/crossentropy": 1.746779441833496,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1787109375,
      "loss/idx": 0.0,
      "loss/logits": 0.048161737620830536,
      "step": 470
    },
    {
      "epoch": 0.0038817508262112958,
      "grad_norm": 2.40625,
      "grad_norm_var": 5.097041829427083,
      "learning_rate": 5e-05,
      "loss": 0.2224,
      "loss/crossentropy": 1.6436595916748047,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1806640625,
      "loss/idx": 0.0,
      "loss/logits": 0.04173795133829117,
      "step": 471
    },
    {
      "epoch": 0.0038899923353964577,
      "grad_norm": 1.8828125,
      "grad_norm_var": 1.336993153889974,
      "learning_rate": 5e-05,
      "loss": 0.1768,
      "loss/crossentropy": 2.6210246086120605,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1357421875,
      "loss/idx": 0.0,
      "loss/logits": 0.041082605719566345,
      "step": 472
    },
    {
      "epoch": 0.00389823384458162,
      "grad_norm": 7.125,
      "grad_norm_var": 2.5066485087076824,
      "learning_rate": 5e-05,
      "loss": 0.2539,
      "loss/crossentropy": 2.7276291847229004,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.203125,
      "loss/idx": 0.0,
      "loss/logits": 0.050726860761642456,
      "step": 473
    },
    {
      "epoch": 0.003906475353766782,
      "grad_norm": 2.0,
      "grad_norm_var": 2.4815958658854167,
      "learning_rate": 5e-05,
      "loss": 0.1564,
      "loss/crossentropy": 2.6117374897003174,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.034293532371520996,
      "step": 474
    },
    {
      "epoch": 0.003914716862951944,
      "grad_norm": 10.3125,
      "grad_norm_var": 5.389619700113932,
      "learning_rate": 5e-05,
      "loss": 0.3135,
      "loss/crossentropy": 2.8067679405212402,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2451171875,
      "loss/idx": 0.0,
      "loss/logits": 0.06842821836471558,
      "step": 475
    },
    {
      "epoch": 0.003922958372137106,
      "grad_norm": 3.1875,
      "grad_norm_var": 5.210853830973307,
      "learning_rate": 5e-05,
      "loss": 0.237,
      "loss/crossentropy": 2.265045642852783,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1875,
      "loss/idx": 0.0,
      "loss/logits": 0.049473538994789124,
      "step": 476
    },
    {
      "epoch": 0.003931199881322268,
      "grad_norm": 2.5,
      "grad_norm_var": 4.968281809488932,
      "learning_rate": 5e-05,
      "loss": 0.22,
      "loss/crossentropy": 2.7731900215148926,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.169921875,
      "loss/idx": 0.0,
      "loss/logits": 0.05008155107498169,
      "step": 477
    },
    {
      "epoch": 0.0039394413905074295,
      "grad_norm": 7.75,
      "grad_norm_var": 5.937888336181641,
      "learning_rate": 5e-05,
      "loss": 0.4192,
      "loss/crossentropy": 2.859137535095215,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.333984375,
      "loss/idx": 0.0,
      "loss/logits": 0.08519326895475388,
      "step": 478
    },
    {
      "epoch": 0.003947682899692591,
      "grad_norm": 3.734375,
      "grad_norm_var": 5.924122873942057,
      "learning_rate": 5e-05,
      "loss": 0.2565,
      "loss/crossentropy": 1.434816598892212,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.224609375,
      "loss/idx": 0.0,
      "loss/logits": 0.03185056895017624,
      "step": 479
    },
    {
      "epoch": 0.003955924408877754,
      "grad_norm": 1.90625,
      "grad_norm_var": 6.052335357666015,
      "learning_rate": 5e-05,
      "loss": 0.207,
      "loss/crossentropy": 2.1310391426086426,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16015625,
      "loss/idx": 0.0,
      "loss/logits": 0.04687424749135971,
      "step": 480
    },
    {
      "epoch": 0.003964165918062916,
      "grad_norm": 3.25,
      "grad_norm_var": 5.982144927978515,
      "learning_rate": 5e-05,
      "loss": 0.2501,
      "loss/crossentropy": 2.3727288246154785,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1982421875,
      "loss/idx": 0.0,
      "loss/logits": 0.05187632888555527,
      "step": 481
    },
    {
      "epoch": 0.003972407427248078,
      "grad_norm": 1.046875,
      "grad_norm_var": 6.40746841430664,
      "learning_rate": 5e-05,
      "loss": 0.1219,
      "loss/crossentropy": 1.4023224115371704,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.103515625,
      "loss/idx": 0.0,
      "loss/logits": 0.018374113366007805,
      "step": 482
    },
    {
      "epoch": 0.00398064893643324,
      "grad_norm": 4.0625,
      "grad_norm_var": 6.349881744384765,
      "learning_rate": 5e-05,
      "loss": 0.2168,
      "loss/crossentropy": 1.5084764957427979,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1669921875,
      "loss/idx": 0.0,
      "loss/logits": 0.04980340600013733,
      "step": 483
    },
    {
      "epoch": 0.003988890445618402,
      "grad_norm": 2.09375,
      "grad_norm_var": 6.393645985921224,
      "learning_rate": 5e-05,
      "loss": 0.1647,
      "loss/crossentropy": 1.9611366987228394,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1259765625,
      "loss/idx": 0.0,
      "loss/logits": 0.038717180490493774,
      "step": 484
    },
    {
      "epoch": 0.003997131954803564,
      "grad_norm": 3.296875,
      "grad_norm_var": 6.390036773681641,
      "learning_rate": 5e-05,
      "loss": 0.2526,
      "loss/crossentropy": 2.1912283897399902,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.201171875,
      "loss/idx": 0.0,
      "loss/logits": 0.05140523985028267,
      "step": 485
    },
    {
      "epoch": 0.0040053734639887255,
      "grad_norm": 2.28125,
      "grad_norm_var": 6.45104751586914,
      "learning_rate": 5e-05,
      "loss": 0.2049,
      "loss/crossentropy": 1.1990885734558105,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.173828125,
      "loss/idx": 0.0,
      "loss/logits": 0.03110179677605629,
      "step": 486
    },
    {
      "epoch": 0.004013614973173887,
      "grad_norm": 2.109375,
      "grad_norm_var": 6.506866200764974,
      "learning_rate": 5e-05,
      "loss": 0.1932,
      "loss/crossentropy": 2.469733715057373,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.150390625,
      "loss/idx": 0.0,
      "loss/logits": 0.04281339794397354,
      "step": 487
    },
    {
      "epoch": 0.004021856482359049,
      "grad_norm": 318.0,
      "grad_norm_var": 6177.285184733073,
      "learning_rate": 5e-05,
      "loss": 1.5086,
      "loss/crossentropy": 1.5801646709442139,
      "loss/dist_ce": 0.0,
      "loss/hidden": 1.390625,
      "loss/idx": 0.0,
      "loss/logits": 0.1180073618888855,
      "step": 488
    },
    {
      "epoch": 0.004030097991544211,
      "grad_norm": 11.75,
      "grad_norm_var": 6168.57597249349,
      "learning_rate": 5e-05,
      "loss": 0.4099,
      "loss/crossentropy": 2.5404622554779053,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.3359375,
      "loss/idx": 0.0,
      "loss/logits": 0.0739157497882843,
      "step": 489
    },
    {
      "epoch": 0.004038339500729374,
      "grad_norm": 4.125,
      "grad_norm_var": 6162.7084269205725,
      "learning_rate": 5e-05,
      "loss": 0.2788,
      "loss/crossentropy": 2.6295320987701416,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2109375,
      "loss/idx": 0.0,
      "loss/logits": 0.06782936304807663,
      "step": 490
    },
    {
      "epoch": 0.004046581009914536,
      "grad_norm": 9.6875,
      "grad_norm_var": 6163.8599568684895,
      "learning_rate": 5e-05,
      "loss": 0.4341,
      "loss/crossentropy": 3.0478451251983643,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.310546875,
      "loss/idx": 0.0,
      "loss/logits": 0.12352639436721802,
      "step": 491
    },
    {
      "epoch": 0.004054822519099698,
      "grad_norm": 5.90625,
      "grad_norm_var": 6156.850325520833,
      "learning_rate": 5e-05,
      "loss": 0.1865,
      "loss/crossentropy": 1.3709689378738403,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.162109375,
      "loss/idx": 0.0,
      "loss/logits": 0.02439779043197632,
      "step": 492
    },
    {
      "epoch": 0.00406306402828486,
      "grad_norm": 1.625,
      "grad_norm_var": 6159.402864583333,
      "learning_rate": 5e-05,
      "loss": 0.1459,
      "loss/crossentropy": 1.324977159500122,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12109375,
      "loss/idx": 0.0,
      "loss/logits": 0.02481193095445633,
      "step": 493
    },
    {
      "epoch": 0.0040713055374700215,
      "grad_norm": 8.4375,
      "grad_norm_var": 6157.950699869792,
      "learning_rate": 5e-05,
      "loss": 0.2132,
      "loss/crossentropy": 1.4893817901611328,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.173828125,
      "loss/idx": 0.0,
      "loss/logits": 0.039393968880176544,
      "step": 494
    },
    {
      "epoch": 0.004079547046655183,
      "grad_norm": 2.046875,
      "grad_norm_var": 6162.678776041666,
      "learning_rate": 5e-05,
      "loss": 0.132,
      "loss/crossentropy": 1.3435920476913452,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.017779778689146042,
      "step": 495
    },
    {
      "epoch": 0.004087788555840345,
      "grad_norm": 3.65625,
      "grad_norm_var": 6157.749609375,
      "learning_rate": 5e-05,
      "loss": 0.2431,
      "loss/crossentropy": 2.082836151123047,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.185546875,
      "loss/idx": 0.0,
      "loss/logits": 0.057581763714551926,
      "step": 496
    },
    {
      "epoch": 0.004096030065025507,
      "grad_norm": 6.34375,
      "grad_norm_var": 6149.804553222656,
      "learning_rate": 5e-05,
      "loss": 0.2089,
      "loss/crossentropy": 1.231292486190796,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.02723127231001854,
      "step": 497
    },
    {
      "epoch": 0.004104271574210669,
      "grad_norm": 3.296875,
      "grad_norm_var": 6143.188732910156,
      "learning_rate": 5e-05,
      "loss": 0.2633,
      "loss/crossentropy": 2.7151858806610107,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.197265625,
      "loss/idx": 0.0,
      "loss/logits": 0.06607217341661453,
      "step": 498
    },
    {
      "epoch": 0.004112513083395832,
      "grad_norm": 2.515625,
      "grad_norm_var": 6147.511221313476,
      "learning_rate": 5e-05,
      "loss": 0.1795,
      "loss/crossentropy": 2.5187623500823975,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.138671875,
      "loss/idx": 0.0,
      "loss/logits": 0.040810734033584595,
      "step": 499
    },
    {
      "epoch": 0.004120754592580994,
      "grad_norm": 3.640625,
      "grad_norm_var": 6143.101721191406,
      "learning_rate": 5e-05,
      "loss": 0.3104,
      "loss/crossentropy": 2.562577962875366,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.23046875,
      "loss/idx": 0.0,
      "loss/logits": 0.07988132536411285,
      "step": 500
    },
    {
      "epoch": 0.004128996101766156,
      "grad_norm": 2.46875,
      "grad_norm_var": 6145.463117472331,
      "learning_rate": 5e-05,
      "loss": 0.1763,
      "loss/crossentropy": 2.076406478881836,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.04152751341462135,
      "step": 501
    },
    {
      "epoch": 0.0041372376109513175,
      "grad_norm": 2.15625,
      "grad_norm_var": 6145.830125935872,
      "learning_rate": 5e-05,
      "loss": 0.1825,
      "loss/crossentropy": 1.5978915691375732,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1474609375,
      "loss/idx": 0.0,
      "loss/logits": 0.03506774455308914,
      "step": 502
    },
    {
      "epoch": 0.004145479120136479,
      "grad_norm": 6.5,
      "grad_norm_var": 6134.082059733073,
      "learning_rate": 5e-05,
      "loss": 0.343,
      "loss/crossentropy": 2.7203476428985596,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25390625,
      "loss/idx": 0.0,
      "loss/logits": 0.0890902578830719,
      "step": 503
    },
    {
      "epoch": 0.004153720629321641,
      "grad_norm": 2.46875,
      "grad_norm_var": 9.201432291666666,
      "learning_rate": 5e-05,
      "loss": 0.197,
      "loss/crossentropy": 1.9945552349090576,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15625,
      "loss/idx": 0.0,
      "loss/logits": 0.040720634162425995,
      "step": 504
    },
    {
      "epoch": 0.004161962138506803,
      "grad_norm": 2.71875,
      "grad_norm_var": 5.917020670572916,
      "learning_rate": 5e-05,
      "loss": 0.1455,
      "loss/crossentropy": 0.7928286790847778,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.010724226012825966,
      "step": 505
    },
    {
      "epoch": 0.004170203647691965,
      "grad_norm": 1.5234375,
      "grad_norm_var": 6.374580637613932,
      "learning_rate": 5e-05,
      "loss": 0.1175,
      "loss/crossentropy": 1.454852819442749,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0986328125,
      "loss/idx": 0.0,
      "loss/logits": 0.018820609897375107,
      "step": 506
    },
    {
      "epoch": 0.004178445156877127,
      "grad_norm": 5.0,
      "grad_norm_var": 4.231941477457682,
      "learning_rate": 5e-05,
      "loss": 0.2223,
      "loss/crossentropy": 1.54378080368042,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1865234375,
      "loss/idx": 0.0,
      "loss/logits": 0.03581738844513893,
      "step": 507
    },
    {
      "epoch": 0.00418668666606229,
      "grad_norm": 2.28125,
      "grad_norm_var": 4.020247141520183,
      "learning_rate": 5e-05,
      "loss": 0.1535,
      "loss/crossentropy": 2.197096109390259,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1259765625,
      "loss/idx": 0.0,
      "loss/logits": 0.02750355750322342,
      "step": 508
    },
    {
      "epoch": 0.004194928175247452,
      "grad_norm": 3.890625,
      "grad_norm_var": 3.761824289957682,
      "learning_rate": 5e-05,
      "loss": 0.2321,
      "loss/crossentropy": 2.152005195617676,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.19140625,
      "loss/idx": 0.0,
      "loss/logits": 0.040720127522945404,
      "step": 509
    },
    {
      "epoch": 0.0042031696844326135,
      "grad_norm": 2.625,
      "grad_norm_var": 2.189497629801432,
      "learning_rate": 5e-05,
      "loss": 0.1794,
      "loss/crossentropy": 1.419573187828064,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1455078125,
      "loss/idx": 0.0,
      "loss/logits": 0.03389629349112511,
      "step": 510
    },
    {
      "epoch": 0.004211411193617775,
      "grad_norm": 2.59375,
      "grad_norm_var": 2.1152992248535156,
      "learning_rate": 5e-05,
      "loss": 0.1537,
      "loss/crossentropy": 1.2792004346847534,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1328125,
      "loss/idx": 0.0,
      "loss/logits": 0.020872898399829865,
      "step": 511
    },
    {
      "epoch": 0.004219652702802937,
      "grad_norm": 1.8984375,
      "grad_norm_var": 2.2378082275390625,
      "learning_rate": 5e-05,
      "loss": 0.1677,
      "loss/crossentropy": 2.1597256660461426,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1328125,
      "loss/idx": 0.0,
      "loss/logits": 0.03487637639045715,
      "step": 512
    },
    {
      "epoch": 0.004227894211988099,
      "grad_norm": 3.3125,
      "grad_norm_var": 1.5597239176432292,
      "learning_rate": 5e-05,
      "loss": 0.2512,
      "loss/crossentropy": 1.6841063499450684,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.19921875,
      "loss/idx": 0.0,
      "loss/logits": 0.05194816365838051,
      "step": 513
    },
    {
      "epoch": 0.004236135721173261,
      "grad_norm": 4.78125,
      "grad_norm_var": 1.7451741536458334,
      "learning_rate": 5e-05,
      "loss": 0.2239,
      "loss/crossentropy": 2.816648006439209,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.171875,
      "loss/idx": 0.0,
      "loss/logits": 0.051988691091537476,
      "step": 514
    },
    {
      "epoch": 0.004244377230358423,
      "grad_norm": 11.6875,
      "grad_norm_var": 6.229002888997396,
      "learning_rate": 5e-05,
      "loss": 0.3317,
      "loss/crossentropy": 2.0484461784362793,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.275390625,
      "loss/idx": 0.0,
      "loss/logits": 0.05626022815704346,
      "step": 515
    },
    {
      "epoch": 0.004252618739543585,
      "grad_norm": 3.546875,
      "grad_norm_var": 6.2305653889973955,
      "learning_rate": 5e-05,
      "loss": 0.1705,
      "loss/crossentropy": 1.2704802751541138,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.140625,
      "loss/idx": 0.0,
      "loss/logits": 0.029856139793992043,
      "step": 516
    },
    {
      "epoch": 0.004260860248728747,
      "grad_norm": 2.859375,
      "grad_norm_var": 6.175150553385417,
      "learning_rate": 5e-05,
      "loss": 0.2187,
      "loss/crossentropy": 1.2983540296554565,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1826171875,
      "loss/idx": 0.0,
      "loss/logits": 0.03611702471971512,
      "step": 517
    },
    {
      "epoch": 0.0042691017579139096,
      "grad_norm": 2.390625,
      "grad_norm_var": 6.1290842692057295,
      "learning_rate": 5e-05,
      "loss": 0.1968,
      "loss/crossentropy": 2.924328088760376,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.150390625,
      "loss/idx": 0.0,
      "loss/logits": 0.04644050449132919,
      "step": 518
    },
    {
      "epoch": 0.0042773432670990714,
      "grad_norm": 2.453125,
      "grad_norm_var": 5.671439615885417,
      "learning_rate": 5e-05,
      "loss": 0.2026,
      "loss/crossentropy": 2.4892868995666504,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1611328125,
      "loss/idx": 0.0,
      "loss/logits": 0.0414496548473835,
      "step": 519
    },
    {
      "epoch": 0.004285584776284233,
      "grad_norm": 2.453125,
      "grad_norm_var": 5.673607381184896,
      "learning_rate": 5e-05,
      "loss": 0.243,
      "loss/crossentropy": 0.931300163269043,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1796875,
      "loss/idx": 0.0,
      "loss/logits": 0.06334017217159271,
      "step": 520
    },
    {
      "epoch": 0.004293826285469395,
      "grad_norm": 1.5390625,
      "grad_norm_var": 5.883624013264974,
      "learning_rate": 5e-05,
      "loss": 0.1502,
      "loss/crossentropy": 1.3612920045852661,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12109375,
      "loss/idx": 0.0,
      "loss/logits": 0.02915302664041519,
      "step": 521
    },
    {
      "epoch": 0.004302067794654557,
      "grad_norm": 1.4609375,
      "grad_norm_var": 5.899733225504558,
      "learning_rate": 5e-05,
      "loss": 0.1209,
      "loss/crossentropy": 0.7956821918487549,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10498046875,
      "loss/idx": 0.0,
      "loss/logits": 0.01589544117450714,
      "step": 522
    },
    {
      "epoch": 0.004310309303839719,
      "grad_norm": 8.9375,
      "grad_norm_var": 7.696473948160807,
      "learning_rate": 5e-05,
      "loss": 0.466,
      "loss/crossentropy": 2.8766582012176514,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.40234375,
      "loss/idx": 0.0,
      "loss/logits": 0.06366438418626785,
      "step": 523
    },
    {
      "epoch": 0.004318550813024881,
      "grad_norm": 10.75,
      "grad_norm_var": 10.611466217041016,
      "learning_rate": 5e-05,
      "loss": 0.2406,
      "loss/crossentropy": 1.433667540550232,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.201171875,
      "loss/idx": 0.0,
      "loss/logits": 0.03946308791637421,
      "step": 524
    },
    {
      "epoch": 0.004326792322210043,
      "grad_norm": 1.8828125,
      "grad_norm_var": 10.94590555826823,
      "learning_rate": 5e-05,
      "loss": 0.1674,
      "loss/crossentropy": 0.8868244290351868,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.03266747295856476,
      "step": 525
    },
    {
      "epoch": 0.004335033831395205,
      "grad_norm": 10.9375,
      "grad_norm_var": 13.659373982747395,
      "learning_rate": 5e-05,
      "loss": 0.2533,
      "loss/crossentropy": 1.5202522277832031,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2236328125,
      "loss/idx": 0.0,
      "loss/logits": 0.02963770553469658,
      "step": 526
    },
    {
      "epoch": 0.0043432753405803675,
      "grad_norm": 2.5,
      "grad_norm_var": 13.684911092122396,
      "learning_rate": 5e-05,
      "loss": 0.1905,
      "loss/crossentropy": 2.2358787059783936,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1494140625,
      "loss/idx": 0.0,
      "loss/logits": 0.041103295981884,
      "step": 527
    },
    {
      "epoch": 0.004351516849765529,
      "grad_norm": 5.65625,
      "grad_norm_var": 13.220444488525391,
      "learning_rate": 5e-05,
      "loss": 0.2986,
      "loss/crossentropy": 2.475597381591797,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2333984375,
      "loss/idx": 0.0,
      "loss/logits": 0.06522452086210251,
      "step": 528
    },
    {
      "epoch": 0.004359758358950691,
      "grad_norm": 6.125,
      "grad_norm_var": 13.148850250244141,
      "learning_rate": 5e-05,
      "loss": 0.2751,
      "loss/crossentropy": 2.1268441677093506,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2275390625,
      "loss/idx": 0.0,
      "loss/logits": 0.047553326934576035,
      "step": 529
    },
    {
      "epoch": 0.004367999868135853,
      "grad_norm": 4.1875,
      "grad_norm_var": 13.188008371988932,
      "learning_rate": 5e-05,
      "loss": 0.2687,
      "loss/crossentropy": 1.8196269273757935,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.22265625,
      "loss/idx": 0.0,
      "loss/logits": 0.04601012170314789,
      "step": 530
    },
    {
      "epoch": 0.004376241377321015,
      "grad_norm": 5.96875,
      "grad_norm_var": 10.102638498942058,
      "learning_rate": 5e-05,
      "loss": 0.4053,
      "loss/crossentropy": 2.056028127670288,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.291015625,
      "loss/idx": 0.0,
      "loss/logits": 0.11430098116397858,
      "step": 531
    },
    {
      "epoch": 0.004384482886506177,
      "grad_norm": 2.828125,
      "grad_norm_var": 10.236140696207682,
      "learning_rate": 5e-05,
      "loss": 0.1589,
      "loss/crossentropy": 1.7495375871658325,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1298828125,
      "loss/idx": 0.0,
      "loss/logits": 0.02899114228785038,
      "step": 532
    },
    {
      "epoch": 0.004392724395691339,
      "grad_norm": 2.65625,
      "grad_norm_var": 10.28472671508789,
      "learning_rate": 5e-05,
      "loss": 0.177,
      "loss/crossentropy": 1.6073510646820068,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.034396156668663025,
      "step": 533
    },
    {
      "epoch": 0.004400965904876501,
      "grad_norm": 2.484375,
      "grad_norm_var": 10.258341217041016,
      "learning_rate": 5e-05,
      "loss": 0.1938,
      "loss/crossentropy": 1.503987193107605,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.154296875,
      "loss/idx": 0.0,
      "loss/logits": 0.03948179632425308,
      "step": 534
    },
    {
      "epoch": 0.004409207414061663,
      "grad_norm": 1.140625,
      "grad_norm_var": 10.733182525634765,
      "learning_rate": 5e-05,
      "loss": 0.1132,
      "loss/crossentropy": 1.3690646886825562,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.09375,
      "loss/idx": 0.0,
      "loss/logits": 0.019410330802202225,
      "step": 535
    },
    {
      "epoch": 0.004417448923246825,
      "grad_norm": 1.3671875,
      "grad_norm_var": 11.098802693684895,
      "learning_rate": 5e-05,
      "loss": 0.1406,
      "loss/crossentropy": 1.3874551057815552,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1171875,
      "loss/idx": 0.0,
      "loss/logits": 0.023373104631900787,
      "step": 536
    },
    {
      "epoch": 0.004425690432431987,
      "grad_norm": 2.078125,
      "grad_norm_var": 10.911236317952474,
      "learning_rate": 5e-05,
      "loss": 0.1453,
      "loss/crossentropy": 1.0550464391708374,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12353515625,
      "loss/idx": 0.0,
      "loss/logits": 0.021797355264425278,
      "step": 537
    },
    {
      "epoch": 0.004433931941617149,
      "grad_norm": 4.65625,
      "grad_norm_var": 10.28226318359375,
      "learning_rate": 5e-05,
      "loss": 0.229,
      "loss/crossentropy": 2.7873692512512207,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.177734375,
      "loss/idx": 0.0,
      "loss/logits": 0.05122203379869461,
      "step": 538
    },
    {
      "epoch": 0.004442173450802311,
      "grad_norm": 4.40625,
      "grad_norm_var": 8.965958658854166,
      "learning_rate": 5e-05,
      "loss": 0.3081,
      "loss/crossentropy": 2.410203695297241,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25,
      "loss/idx": 0.0,
      "loss/logits": 0.058051109313964844,
      "step": 539
    },
    {
      "epoch": 0.004450414959987473,
      "grad_norm": 2.671875,
      "grad_norm_var": 6.152814737955729,
      "learning_rate": 5e-05,
      "loss": 0.1837,
      "loss/crossentropy": 1.0460572242736816,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1591796875,
      "loss/idx": 0.0,
      "loss/logits": 0.024545256048440933,
      "step": 540
    },
    {
      "epoch": 0.004458656469172635,
      "grad_norm": 2.25,
      "grad_norm_var": 6.065093739827474,
      "learning_rate": 5e-05,
      "loss": 0.1368,
      "loss/crossentropy": 0.29145750403404236,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.126953125,
      "loss/idx": 0.0,
      "loss/logits": 0.00982777401804924,
      "step": 541
    },
    {
      "epoch": 0.004466897978357797,
      "grad_norm": 3.53125,
      "grad_norm_var": 2.513854726155599,
      "learning_rate": 5e-05,
      "loss": 0.1929,
      "loss/crossentropy": 1.3329319953918457,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.162109375,
      "loss/idx": 0.0,
      "loss/logits": 0.030750418081879616,
      "step": 542
    },
    {
      "epoch": 0.004475139487542959,
      "grad_norm": 3.265625,
      "grad_norm_var": 2.457928212483724,
      "learning_rate": 5e-05,
      "loss": 0.2152,
      "loss/crossentropy": 2.0753843784332275,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.169921875,
      "loss/idx": 0.0,
      "loss/logits": 0.045312896370887756,
      "step": 543
    },
    {
      "epoch": 0.0044833809967281205,
      "grad_norm": 3.1875,
      "grad_norm_var": 2.114135487874349,
      "learning_rate": 5e-05,
      "loss": 0.1793,
      "loss/crossentropy": 1.0670427083969116,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1455078125,
      "loss/idx": 0.0,
      "loss/logits": 0.033770665526390076,
      "step": 544
    },
    {
      "epoch": 0.004491622505913282,
      "grad_norm": 1.6328125,
      "grad_norm_var": 1.6834879557291667,
      "learning_rate": 5e-05,
      "loss": 0.1622,
      "loss/crossentropy": 1.4867587089538574,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1337890625,
      "loss/idx": 0.0,
      "loss/logits": 0.02845672518014908,
      "step": 545
    },
    {
      "epoch": 0.004499864015098445,
      "grad_norm": 2.859375,
      "grad_norm_var": 1.5869049072265624,
      "learning_rate": 5e-05,
      "loss": 0.1723,
      "loss/crossentropy": 1.544826865196228,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.146484375,
      "loss/idx": 0.0,
      "loss/logits": 0.025784984230995178,
      "step": 546
    },
    {
      "epoch": 0.004508105524283607,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.9517730712890625,
      "learning_rate": 5e-05,
      "loss": 0.2222,
      "loss/crossentropy": 2.5712733268737793,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16796875,
      "loss/idx": 0.0,
      "loss/logits": 0.05422845110297203,
      "step": 547
    },
    {
      "epoch": 0.004516347033468769,
      "grad_norm": 1.6875,
      "grad_norm_var": 1.0136311848958333,
      "learning_rate": 5e-05,
      "loss": 0.1554,
      "loss/crossentropy": 1.6466069221496582,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1279296875,
      "loss/idx": 0.0,
      "loss/logits": 0.027493983507156372,
      "step": 548
    },
    {
      "epoch": 0.004524588542653931,
      "grad_norm": 1.5546875,
      "grad_norm_var": 1.085455067952474,
      "learning_rate": 5e-05,
      "loss": 0.1578,
      "loss/crossentropy": 2.487321615219116,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12451171875,
      "loss/idx": 0.0,
      "loss/logits": 0.03331330791115761,
      "step": 549
    },
    {
      "epoch": 0.004532830051839093,
      "grad_norm": 2.6875,
      "grad_norm_var": 1.0859840393066407,
      "learning_rate": 5e-05,
      "loss": 0.2285,
      "loss/crossentropy": 2.7870802879333496,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.173828125,
      "loss/idx": 0.0,
      "loss/logits": 0.054664455354213715,
      "step": 550
    },
    {
      "epoch": 0.004541071561024255,
      "grad_norm": 1.6875,
      "grad_norm_var": 1.000249989827474,
      "learning_rate": 5e-05,
      "loss": 0.1342,
      "loss/crossentropy": 1.667282223701477,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1123046875,
      "loss/idx": 0.0,
      "loss/logits": 0.02186622843146324,
      "step": 551
    },
    {
      "epoch": 0.0045493130702094165,
      "grad_norm": 1.265625,
      "grad_norm_var": 1.0176829020182292,
      "learning_rate": 5e-05,
      "loss": 0.1424,
      "loss/crossentropy": 2.4660463333129883,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11328125,
      "loss/idx": 0.0,
      "loss/logits": 0.029071927070617676,
      "step": 552
    },
    {
      "epoch": 0.0045575545793945784,
      "grad_norm": 1.4609375,
      "grad_norm_var": 1.084484608968099,
      "learning_rate": 5e-05,
      "loss": 0.1525,
      "loss/crossentropy": 2.228982925415039,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.030380506068468094,
      "step": 553
    },
    {
      "epoch": 0.00456579608857974,
      "grad_norm": 1.4296875,
      "grad_norm_var": 0.8341949462890625,
      "learning_rate": 5e-05,
      "loss": 0.1534,
      "loss/crossentropy": 2.0212230682373047,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1171875,
      "loss/idx": 0.0,
      "loss/logits": 0.0362619124352932,
      "step": 554
    },
    {
      "epoch": 0.004574037597764903,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.5643229166666667,
      "learning_rate": 5e-05,
      "loss": 0.171,
      "loss/crossentropy": 1.549071192741394,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1455078125,
      "loss/idx": 0.0,
      "loss/logits": 0.02545047551393509,
      "step": 555
    },
    {
      "epoch": 0.004582279106950065,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.8214182535807292,
      "learning_rate": 5e-05,
      "loss": 0.3118,
      "loss/crossentropy": 2.652635097503662,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25390625,
      "loss/idx": 0.0,
      "loss/logits": 0.057920753955841064,
      "step": 556
    },
    {
      "epoch": 0.004590520616135227,
      "grad_norm": 1.140625,
      "grad_norm_var": 0.9158162434895833,
      "learning_rate": 5e-05,
      "loss": 0.1287,
      "loss/crossentropy": 1.6453478336334229,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1064453125,
      "loss/idx": 0.0,
      "loss/logits": 0.022242678329348564,
      "step": 557
    },
    {
      "epoch": 0.004598762125320389,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.8765777587890625,
      "learning_rate": 5e-05,
      "loss": 0.2774,
      "loss/crossentropy": 1.622141718864441,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2373046875,
      "loss/idx": 0.0,
      "loss/logits": 0.04007745534181595,
      "step": 558
    },
    {
      "epoch": 0.004607003634505551,
      "grad_norm": 1.859375,
      "grad_norm_var": 0.8157867431640625,
      "learning_rate": 5e-05,
      "loss": 0.1513,
      "loss/crossentropy": 1.737197995185852,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.123046875,
      "loss/idx": 0.0,
      "loss/logits": 0.0283003281801939,
      "step": 559
    },
    {
      "epoch": 0.0046152451436907126,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.74814453125,
      "learning_rate": 5e-05,
      "loss": 0.1046,
      "loss/crossentropy": 0.2462574690580368,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0966796875,
      "loss/idx": 0.0,
      "loss/logits": 0.00796109065413475,
      "step": 560
    },
    {
      "epoch": 0.0046234866528758745,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.8270566304524739,
      "learning_rate": 5e-05,
      "loss": 0.2059,
      "loss/crossentropy": 2.6141371726989746,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.162109375,
      "loss/idx": 0.0,
      "loss/logits": 0.043790802359580994,
      "step": 561
    },
    {
      "epoch": 0.004631728162061036,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.892352040608724,
      "learning_rate": 5e-05,
      "loss": 0.1974,
      "loss/crossentropy": 1.422098994255066,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15625,
      "loss/idx": 0.0,
      "loss/logits": 0.0411381721496582,
      "step": 562
    },
    {
      "epoch": 0.004639969671246198,
      "grad_norm": 6.125,
      "grad_norm_var": 1.808794911702474,
      "learning_rate": 5e-05,
      "loss": 0.3067,
      "loss/crossentropy": 2.6955533027648926,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.232421875,
      "loss/idx": 0.0,
      "loss/logits": 0.07427150756120682,
      "step": 563
    },
    {
      "epoch": 0.004648211180431361,
      "grad_norm": 3.28125,
      "grad_norm_var": 1.787731679280599,
      "learning_rate": 5e-05,
      "loss": 0.2236,
      "loss/crossentropy": 2.841552972793579,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.041970379650592804,
      "step": 564
    },
    {
      "epoch": 0.004656452689616523,
      "grad_norm": 3.453125,
      "grad_norm_var": 1.7399617513020833,
      "learning_rate": 5e-05,
      "loss": 0.1892,
      "loss/crossentropy": 2.6695666313171387,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1494140625,
      "loss/idx": 0.0,
      "loss/logits": 0.039814580231904984,
      "step": 565
    },
    {
      "epoch": 0.004664694198801685,
      "grad_norm": 23.0,
      "grad_norm_var": 27.352754720052083,
      "learning_rate": 5e-05,
      "loss": 0.3797,
      "loss/crossentropy": 2.7561914920806885,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.306640625,
      "loss/idx": 0.0,
      "loss/logits": 0.0730535015463829,
      "step": 566
    },
    {
      "epoch": 0.004672935707986847,
      "grad_norm": 4.125,
      "grad_norm_var": 26.965547688802083,
      "learning_rate": 5e-05,
      "loss": 0.2569,
      "loss/crossentropy": 1.6983141899108887,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.212890625,
      "loss/idx": 0.0,
      "loss/logits": 0.04405267536640167,
      "step": 567
    },
    {
      "epoch": 0.004681177217172009,
      "grad_norm": 3.28125,
      "grad_norm_var": 26.437889607747397,
      "learning_rate": 5e-05,
      "loss": 0.1744,
      "loss/crossentropy": 1.50763738155365,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.14453125,
      "loss/idx": 0.0,
      "loss/logits": 0.029890574514865875,
      "step": 568
    },
    {
      "epoch": 0.0046894187263571705,
      "grad_norm": 4.1875,
      "grad_norm_var": 25.870477040608723,
      "learning_rate": 5e-05,
      "loss": 0.2786,
      "loss/crossentropy": 2.469428300857544,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.216796875,
      "loss/idx": 0.0,
      "loss/logits": 0.06181073188781738,
      "step": 569
    },
    {
      "epoch": 0.004697660235542332,
      "grad_norm": 1.4140625,
      "grad_norm_var": 25.87682673136393,
      "learning_rate": 5e-05,
      "loss": 0.1614,
      "loss/crossentropy": 1.521830439567566,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1328125,
      "loss/idx": 0.0,
      "loss/logits": 0.02856556512415409,
      "step": 570
    },
    {
      "epoch": 0.004705901744727494,
      "grad_norm": 3.109375,
      "grad_norm_var": 25.83377456665039,
      "learning_rate": 5e-05,
      "loss": 0.1871,
      "loss/crossentropy": 2.5410780906677246,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1484375,
      "loss/idx": 0.0,
      "loss/logits": 0.038688138127326965,
      "step": 571
    },
    {
      "epoch": 0.004714143253912656,
      "grad_norm": 20.25,
      "grad_norm_var": 41.34689712524414,
      "learning_rate": 5e-05,
      "loss": 0.3154,
      "loss/crossentropy": 0.9852694272994995,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.27734375,
      "loss/idx": 0.0,
      "loss/logits": 0.0380379781126976,
      "step": 572
    },
    {
      "epoch": 0.004722384763097818,
      "grad_norm": 6.46875,
      "grad_norm_var": 40.0391476949056,
      "learning_rate": 5e-05,
      "loss": 0.3102,
      "loss/crossentropy": 2.0467264652252197,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.25,
      "loss/idx": 0.0,
      "loss/logits": 0.06023257598280907,
      "step": 573
    },
    {
      "epoch": 0.004730626272282981,
      "grad_norm": 4.40625,
      "grad_norm_var": 39.73319880167643,
      "learning_rate": 5e-05,
      "loss": 0.2448,
      "loss/crossentropy": 2.768284320831299,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1875,
      "loss/idx": 0.0,
      "loss/logits": 0.057292141020298004,
      "step": 574
    },
    {
      "epoch": 0.004738867781468143,
      "grad_norm": 3.25,
      "grad_norm_var": 39.10796076456706,
      "learning_rate": 5e-05,
      "loss": 0.1371,
      "loss/crossentropy": 0.4907649755477905,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.125,
      "loss/idx": 0.0,
      "loss/logits": 0.01206925604492426,
      "step": 575
    },
    {
      "epoch": 0.004747109290653305,
      "grad_norm": 1.1328125,
      "grad_norm_var": 39.77771708170573,
      "learning_rate": 5e-05,
      "loss": 0.1305,
      "loss/crossentropy": 1.4613217115402222,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.109375,
      "loss/idx": 0.0,
      "loss/logits": 0.021137792617082596,
      "step": 576
    },
    {
      "epoch": 0.0047553507998384665,
      "grad_norm": 1.4453125,
      "grad_norm_var": 40.673797353108725,
      "learning_rate": 5e-05,
      "loss": 0.1593,
      "loss/crossentropy": 2.2154600620269775,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12890625,
      "loss/idx": 0.0,
      "loss/logits": 0.030367335304617882,
      "step": 577
    },
    {
      "epoch": 0.004763592309023628,
      "grad_norm": 2.40625,
      "grad_norm_var": 41.05650812784831,
      "learning_rate": 5e-05,
      "loss": 0.1951,
      "loss/crossentropy": 2.493523120880127,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1513671875,
      "loss/idx": 0.0,
      "loss/logits": 0.04371439293026924,
      "step": 578
    },
    {
      "epoch": 0.00477183381820879,
      "grad_norm": 2.28125,
      "grad_norm_var": 41.76645075480143,
      "learning_rate": 5e-05,
      "loss": 0.1766,
      "loss/crossentropy": 2.818694829940796,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.04187324270606041,
      "step": 579
    },
    {
      "epoch": 0.004780075327393952,
      "grad_norm": 2.5625,
      "grad_norm_var": 42.00832697550456,
      "learning_rate": 5e-05,
      "loss": 0.213,
      "loss/crossentropy": 3.1531453132629395,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1630859375,
      "loss/idx": 0.0,
      "loss/logits": 0.049924593418836594,
      "step": 580
    },
    {
      "epoch": 0.004788316836579114,
      "grad_norm": 2.359375,
      "grad_norm_var": 42.370418039957684,
      "learning_rate": 5e-05,
      "loss": 0.1859,
      "loss/crossentropy": 2.076953172683716,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.14453125,
      "loss/idx": 0.0,
      "loss/logits": 0.041379667818546295,
      "step": 581
    },
    {
      "epoch": 0.004796558345764276,
      "grad_norm": 2.328125,
      "grad_norm_var": 20.444233957926432,
      "learning_rate": 5e-05,
      "loss": 0.1769,
      "loss/crossentropy": 2.5741026401519775,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1396484375,
      "loss/idx": 0.0,
      "loss/logits": 0.03728485107421875,
      "step": 582
    },
    {
      "epoch": 0.004804799854949439,
      "grad_norm": 2.875,
      "grad_norm_var": 20.5315549214681,
      "learning_rate": 5e-05,
      "loss": 0.1681,
      "loss/crossentropy": 2.4309182167053223,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.033366359770298004,
      "step": 583
    },
    {
      "epoch": 0.004813041364134601,
      "grad_norm": 0.94921875,
      "grad_norm_var": 21.090232785542806,
      "learning_rate": 5e-05,
      "loss": 0.1001,
      "loss/crossentropy": 0.35457542538642883,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.09228515625,
      "loss/idx": 0.0,
      "loss/logits": 0.007841967046260834,
      "step": 584
    },
    {
      "epoch": 0.0048212828733197625,
      "grad_norm": 6.71875,
      "grad_norm_var": 21.60826562245687,
      "learning_rate": 5e-05,
      "loss": 0.3594,
      "loss/crossentropy": 2.4798266887664795,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.28515625,
      "loss/idx": 0.0,
      "loss/logits": 0.07420751452445984,
      "step": 585
    },
    {
      "epoch": 0.004829524382504924,
      "grad_norm": 4.15625,
      "grad_norm_var": 21.133738644917806,
      "learning_rate": 5e-05,
      "loss": 0.2067,
      "loss/crossentropy": 2.589935064315796,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.166015625,
      "loss/idx": 0.0,
      "loss/logits": 0.04071066156029701,
      "step": 586
    },
    {
      "epoch": 0.004837765891690086,
      "grad_norm": 2.640625,
      "grad_norm_var": 21.213679440816243,
      "learning_rate": 5e-05,
      "loss": 0.1794,
      "loss/crossentropy": 2.3674118518829346,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1396484375,
      "loss/idx": 0.0,
      "loss/logits": 0.03970456123352051,
      "step": 587
    },
    {
      "epoch": 0.004846007400875248,
      "grad_norm": 3.921875,
      "grad_norm_var": 2.8025491714477537,
      "learning_rate": 5e-05,
      "loss": 0.1419,
      "loss/crossentropy": 0.37833818793296814,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.126953125,
      "loss/idx": 0.0,
      "loss/logits": 0.01495468057692051,
      "step": 588
    },
    {
      "epoch": 0.00485424891006041,
      "grad_norm": 5.21875,
      "grad_norm_var": 2.3418965021769207,
      "learning_rate": 5e-05,
      "loss": 0.2142,
      "loss/crossentropy": 2.5115513801574707,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.171875,
      "loss/idx": 0.0,
      "loss/logits": 0.04236599802970886,
      "step": 589
    },
    {
      "epoch": 0.004862490419245572,
      "grad_norm": 1.421875,
      "grad_norm_var": 2.3552057266235353,
      "learning_rate": 5e-05,
      "loss": 0.1423,
      "loss/crossentropy": 1.5357518196105957,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1162109375,
      "loss/idx": 0.0,
      "loss/logits": 0.026050515472888947,
      "step": 590
    },
    {
      "epoch": 0.004870731928430734,
      "grad_norm": 2.59375,
      "grad_norm_var": 2.3474939346313475,
      "learning_rate": 5e-05,
      "loss": 0.1597,
      "loss/crossentropy": 2.9540340900421143,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.125,
      "loss/idx": 0.0,
      "loss/logits": 0.03472492843866348,
      "step": 591
    },
    {
      "epoch": 0.004878973437615897,
      "grad_norm": 1.40625,
      "grad_norm_var": 2.2909016291300457,
      "learning_rate": 5e-05,
      "loss": 0.127,
      "loss/crossentropy": 2.3022918701171875,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10302734375,
      "loss/idx": 0.0,
      "loss/logits": 0.024019837379455566,
      "step": 592
    },
    {
      "epoch": 0.0048872149468010585,
      "grad_norm": 1.6171875,
      "grad_norm_var": 2.261008135477702,
      "learning_rate": 5e-05,
      "loss": 0.1432,
      "loss/crossentropy": 0.7338389158248901,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12451171875,
      "loss/idx": 0.0,
      "loss/logits": 0.018692631274461746,
      "step": 593
    },
    {
      "epoch": 0.00489545645598622,
      "grad_norm": 2.046875,
      "grad_norm_var": 2.2899148941040037,
      "learning_rate": 5e-05,
      "loss": 0.1657,
      "loss/crossentropy": 2.504016160964966,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12890625,
      "loss/idx": 0.0,
      "loss/logits": 0.036834657192230225,
      "step": 594
    },
    {
      "epoch": 0.004903697965171382,
      "grad_norm": 3.953125,
      "grad_norm_var": 2.344827715555827,
      "learning_rate": 5e-05,
      "loss": 0.1572,
      "loss/crossentropy": 1.7626408338546753,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1279296875,
      "loss/idx": 0.0,
      "loss/logits": 0.029316924512386322,
      "step": 595
    },
    {
      "epoch": 0.004911939474356544,
      "grad_norm": 1.953125,
      "grad_norm_var": 2.3973347345987954,
      "learning_rate": 5e-05,
      "loss": 0.141,
      "loss/crossentropy": 1.9684767723083496,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.026772357523441315,
      "step": 596
    },
    {
      "epoch": 0.004920180983541706,
      "grad_norm": 10.625,
      "grad_norm_var": 6.088076210021972,
      "learning_rate": 5e-05,
      "loss": 0.2187,
      "loss/crossentropy": 1.9169155359268188,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1865234375,
      "loss/idx": 0.0,
      "loss/logits": 0.03213420510292053,
      "step": 597
    },
    {
      "epoch": 0.004928422492726868,
      "grad_norm": 4.5625,
      "grad_norm_var": 6.080293718973795,
      "learning_rate": 5e-05,
      "loss": 0.1759,
      "loss/crossentropy": 1.367024540901184,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.03334027901291847,
      "step": 598
    },
    {
      "epoch": 0.00493666400191203,
      "grad_norm": 2.4375,
      "grad_norm_var": 6.131121762593588,
      "learning_rate": 5e-05,
      "loss": 0.2373,
      "loss/crossentropy": 2.452223300933838,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.19921875,
      "loss/idx": 0.0,
      "loss/logits": 0.038047999143600464,
      "step": 599
    },
    {
      "epoch": 0.004944905511097192,
      "grad_norm": 3.859375,
      "grad_norm_var": 5.665278879801432,
      "learning_rate": 5e-05,
      "loss": 0.2239,
      "loss/crossentropy": 1.2548903226852417,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1982421875,
      "loss/idx": 0.0,
      "loss/logits": 0.025662653148174286,
      "step": 600
    },
    {
      "epoch": 0.004953147020282354,
      "grad_norm": 3.265625,
      "grad_norm_var": 5.018717193603516,
      "learning_rate": 5e-05,
      "loss": 0.2458,
      "loss/crossentropy": 2.334947347640991,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1875,
      "loss/idx": 0.0,
      "loss/logits": 0.058346427977085114,
      "step": 601
    },
    {
      "epoch": 0.0049613885294675164,
      "grad_norm": 1.140625,
      "grad_norm_var": 5.315175120035807,
      "learning_rate": 5e-05,
      "loss": 0.0935,
      "loss/crossentropy": 0.5309077501296997,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0849609375,
      "loss/idx": 0.0,
      "loss/logits": 0.008535758592188358,
      "step": 602
    },
    {
      "epoch": 0.004969630038652678,
      "grad_norm": 2.859375,
      "grad_norm_var": 5.299181874593099,
      "learning_rate": 5e-05,
      "loss": 0.2036,
      "loss/crossentropy": 2.4964077472686768,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.158203125,
      "loss/idx": 0.0,
      "loss/logits": 0.045372504740953445,
      "step": 603
    },
    {
      "epoch": 0.00497787154783784,
      "grad_norm": 1.515625,
      "grad_norm_var": 5.463201649983724,
      "learning_rate": 5e-05,
      "loss": 0.1444,
      "loss/crossentropy": 1.4457087516784668,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.119140625,
      "loss/idx": 0.0,
      "loss/logits": 0.025238193571567535,
      "step": 604
    },
    {
      "epoch": 0.004986113057023002,
      "grad_norm": 2.34375,
      "grad_norm_var": 5.188616689046224,
      "learning_rate": 5e-05,
      "loss": 0.164,
      "loss/crossentropy": 1.5325767993927002,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.130859375,
      "loss/idx": 0.0,
      "loss/logits": 0.033134825527668,
      "step": 605
    },
    {
      "epoch": 0.004994354566208164,
      "grad_norm": 2.875,
      "grad_norm_var": 5.019653065999349,
      "learning_rate": 5e-05,
      "loss": 0.2116,
      "loss/crossentropy": 1.964009404182434,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1494140625,
      "loss/idx": 0.0,
      "loss/logits": 0.06218406930565834,
      "step": 606
    },
    {
      "epoch": 0.005002596075393326,
      "grad_norm": 1.796875,
      "grad_norm_var": 5.109509023030599,
      "learning_rate": 5e-05,
      "loss": 0.1477,
      "loss/crossentropy": 1.4914216995239258,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12353515625,
      "loss/idx": 0.0,
      "loss/logits": 0.024151228368282318,
      "step": 607
    },
    {
      "epoch": 0.005010837584578488,
      "grad_norm": 2.6875,
      "grad_norm_var": 4.937090810139974,
      "learning_rate": 5e-05,
      "loss": 0.167,
      "loss/crossentropy": 1.5185096263885498,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.140625,
      "loss/idx": 0.0,
      "loss/logits": 0.02637227438390255,
      "step": 608
    },
    {
      "epoch": 0.00501907909376365,
      "grad_norm": 3.21875,
      "grad_norm_var": 4.781574503580729,
      "learning_rate": 5e-05,
      "loss": 0.2422,
      "loss/crossentropy": 2.671537160873413,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1904296875,
      "loss/idx": 0.0,
      "loss/logits": 0.05179464817047119,
      "step": 609
    },
    {
      "epoch": 0.005027320602948812,
      "grad_norm": 2.640625,
      "grad_norm_var": 4.712612915039062,
      "learning_rate": 5e-05,
      "loss": 0.1652,
      "loss/crossentropy": 1.1440718173980713,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.14453125,
      "loss/idx": 0.0,
      "loss/logits": 0.020696066319942474,
      "step": 610
    },
    {
      "epoch": 0.005035562112133974,
      "grad_norm": 2.265625,
      "grad_norm_var": 4.7286529541015625,
      "learning_rate": 5e-05,
      "loss": 0.1605,
      "loss/crossentropy": 0.47643014788627625,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.14453125,
      "loss/idx": 0.0,
      "loss/logits": 0.016013499349355698,
      "step": 611
    },
    {
      "epoch": 0.005043803621319136,
      "grad_norm": 1.7421875,
      "grad_norm_var": 4.764475250244141,
      "learning_rate": 5e-05,
      "loss": 0.1235,
      "loss/crossentropy": 1.5909593105316162,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10546875,
      "loss/idx": 0.0,
      "loss/logits": 0.018061984330415726,
      "step": 612
    },
    {
      "epoch": 0.005052045130504298,
      "grad_norm": 1.4765625,
      "grad_norm_var": 0.8343994140625,
      "learning_rate": 5e-05,
      "loss": 0.1189,
      "loss/crossentropy": 2.336538076400757,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0966796875,
      "loss/idx": 0.0,
      "loss/logits": 0.022249765694141388,
      "step": 613
    },
    {
      "epoch": 0.00506028663968946,
      "grad_norm": 4.9375,
      "grad_norm_var": 0.9441650390625,
      "learning_rate": 5e-05,
      "loss": 0.2263,
      "loss/crossentropy": 1.665325403213501,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.189453125,
      "loss/idx": 0.0,
      "loss/logits": 0.036880407482385635,
      "step": 614
    },
    {
      "epoch": 0.005068528148874622,
      "grad_norm": 3.765625,
      "grad_norm_var": 1.0315826416015625,
      "learning_rate": 5e-05,
      "loss": 0.2465,
      "loss/crossentropy": 1.6349374055862427,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.185546875,
      "loss/idx": 0.0,
      "loss/logits": 0.06092265248298645,
      "step": 615
    },
    {
      "epoch": 0.005076769658059784,
      "grad_norm": 3.8125,
      "grad_norm_var": 1.02415771484375,
      "learning_rate": 5e-05,
      "loss": 0.2903,
      "loss/crossentropy": 2.2787890434265137,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2177734375,
      "loss/idx": 0.0,
      "loss/logits": 0.07248455286026001,
      "step": 616
    },
    {
      "epoch": 0.005085011167244946,
      "grad_norm": 1.421875,
      "grad_norm_var": 1.0844156901041666,
      "learning_rate": 5e-05,
      "loss": 0.1222,
      "loss/crossentropy": 0.9886749982833862,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10595703125,
      "loss/idx": 0.0,
      "loss/logits": 0.016225244849920273,
      "step": 617
    },
    {
      "epoch": 0.005093252676430108,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.9472900390625,
      "learning_rate": 5e-05,
      "loss": 0.217,
      "loss/crossentropy": 2.012622594833374,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.171875,
      "loss/idx": 0.0,
      "loss/logits": 0.0451560840010643,
      "step": 618
    },
    {
      "epoch": 0.0051014941856152695,
      "grad_norm": 1.9375,
      "grad_norm_var": 0.9720774332682292,
      "learning_rate": 5e-05,
      "loss": 0.1792,
      "loss/crossentropy": 2.2141380310058594,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1435546875,
      "loss/idx": 0.0,
      "loss/logits": 0.03566785901784897,
      "step": 619
    },
    {
      "epoch": 0.005109735694800432,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.9204770406087239,
      "learning_rate": 5e-05,
      "loss": 0.1819,
      "loss/crossentropy": 2.5171334743499756,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1474609375,
      "loss/idx": 0.0,
      "loss/logits": 0.03444764018058777,
      "step": 620
    },
    {
      "epoch": 0.005117977203985594,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.9281979878743489,
      "learning_rate": 5e-05,
      "loss": 0.1252,
      "loss/crossentropy": 1.3747243881225586,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1025390625,
      "loss/idx": 0.0,
      "loss/logits": 0.022622188553214073,
      "step": 621
    },
    {
      "epoch": 0.005126218713170756,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.9839230855305989,
      "learning_rate": 5e-05,
      "loss": 0.1941,
      "loss/crossentropy": 1.6743167638778687,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15625,
      "loss/idx": 0.0,
      "loss/logits": 0.03780867159366608,
      "step": 622
    },
    {
      "epoch": 0.005134460222355918,
      "grad_norm": 1.5703125,
      "grad_norm_var": 1.0123687744140626,
      "learning_rate": 5e-05,
      "loss": 0.1265,
      "loss/crossentropy": 2.2040176391601562,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.09814453125,
      "loss/idx": 0.0,
      "loss/logits": 0.028337322175502777,
      "step": 623
    },
    {
      "epoch": 0.00514270173154108,
      "grad_norm": 2.5625,
      "grad_norm_var": 1.0121897379557292,
      "learning_rate": 5e-05,
      "loss": 0.1402,
      "loss/crossentropy": 0.7447776794433594,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1240234375,
      "loss/idx": 0.0,
      "loss/logits": 0.016176920384168625,
      "step": 624
    },
    {
      "epoch": 0.005150943240726242,
      "grad_norm": 1.6953125,
      "grad_norm_var": 1.0336626688639323,
      "learning_rate": 5e-05,
      "loss": 0.1657,
      "loss/crossentropy": 1.4739638566970825,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.03092530183494091,
      "step": 625
    },
    {
      "epoch": 0.005159184749911404,
      "grad_norm": 2.484375,
      "grad_norm_var": 1.032574208577474,
      "learning_rate": 5e-05,
      "loss": 0.1703,
      "loss/crossentropy": 2.6135871410369873,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1318359375,
      "loss/idx": 0.0,
      "loss/logits": 0.03844151645898819,
      "step": 626
    },
    {
      "epoch": 0.0051674262590965655,
      "grad_norm": 2.75,
      "grad_norm_var": 1.0317543029785157,
      "learning_rate": 5e-05,
      "loss": 0.1908,
      "loss/crossentropy": 2.5848896503448486,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15234375,
      "loss/idx": 0.0,
      "loss/logits": 0.03841109946370125,
      "step": 627
    },
    {
      "epoch": 0.005175667768281727,
      "grad_norm": 1.9375,
      "grad_norm_var": 1.0134755452473958,
      "learning_rate": 5e-05,
      "loss": 0.1499,
      "loss/crossentropy": 0.32518985867500305,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1396484375,
      "loss/idx": 0.0,
      "loss/logits": 0.010256130248308182,
      "step": 628
    },
    {
      "epoch": 0.005183909277466889,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.9605608622233073,
      "learning_rate": 5e-05,
      "loss": 0.1996,
      "loss/crossentropy": 2.3065407276153564,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1640625,
      "loss/idx": 0.0,
      "loss/logits": 0.035511888563632965,
      "step": 629
    },
    {
      "epoch": 0.005192150786652052,
      "grad_norm": 1.828125,
      "grad_norm_var": 0.6212827046712239,
      "learning_rate": 5e-05,
      "loss": 0.1813,
      "loss/crossentropy": 2.5903186798095703,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.140625,
      "loss/idx": 0.0,
      "loss/logits": 0.040679510682821274,
      "step": 630
    },
    {
      "epoch": 0.005200392295837214,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.5139218648274739,
      "learning_rate": 5e-05,
      "loss": 0.1537,
      "loss/crossentropy": 1.5172139406204224,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1240234375,
      "loss/idx": 0.0,
      "loss/logits": 0.029673364013433456,
      "step": 631
    },
    {
      "epoch": 0.005208633805022376,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.3864702860514323,
      "learning_rate": 5e-05,
      "loss": 0.1728,
      "loss/crossentropy": 1.9679391384124756,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1396484375,
      "loss/idx": 0.0,
      "loss/logits": 0.03311806917190552,
      "step": 632
    },
    {
      "epoch": 0.005216875314207538,
      "grad_norm": 1.453125,
      "grad_norm_var": 0.38269220987955727,
      "learning_rate": 5e-05,
      "loss": 0.1564,
      "loss/crossentropy": 1.8976471424102783,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1259765625,
      "loss/idx": 0.0,
      "loss/logits": 0.030387457460165024,
      "step": 633
    },
    {
      "epoch": 0.0052251168233927,
      "grad_norm": 1.4375,
      "grad_norm_var": 0.4224077860514323,
      "learning_rate": 5e-05,
      "loss": 0.1537,
      "loss/crossentropy": 2.396242618560791,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.03165833652019501,
      "step": 634
    },
    {
      "epoch": 0.0052333583325778615,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.4783404032389323,
      "learning_rate": 5e-05,
      "loss": 0.2148,
      "loss/crossentropy": 2.8331291675567627,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1669921875,
      "loss/idx": 0.0,
      "loss/logits": 0.04783923923969269,
      "step": 635
    },
    {
      "epoch": 0.005241599841763023,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.47274169921875,
      "learning_rate": 5e-05,
      "loss": 0.1847,
      "loss/crossentropy": 0.8493193984031677,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15625,
      "loss/idx": 0.0,
      "loss/logits": 0.028483962640166283,
      "step": 636
    },
    {
      "epoch": 0.005249841350948185,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.4718831380208333,
      "learning_rate": 5e-05,
      "loss": 0.157,
      "loss/crossentropy": 2.3299150466918945,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.125,
      "loss/idx": 0.0,
      "loss/logits": 0.032000426203012466,
      "step": 637
    },
    {
      "epoch": 0.005258082860133347,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.3892893473307292,
      "learning_rate": 5e-05,
      "loss": 0.181,
      "loss/crossentropy": 1.8806333541870117,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.14453125,
      "loss/idx": 0.0,
      "loss/logits": 0.03642831742763519,
      "step": 638
    },
    {
      "epoch": 0.00526632436931851,
      "grad_norm": 3.828125,
      "grad_norm_var": 0.4741778055826823,
      "learning_rate": 5e-05,
      "loss": 0.2628,
      "loss/crossentropy": 2.58074951171875,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2021484375,
      "loss/idx": 0.0,
      "loss/logits": 0.06061544269323349,
      "step": 639
    },
    {
      "epoch": 0.005274565878503672,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.49478327433268227,
      "learning_rate": 5e-05,
      "loss": 0.2085,
      "loss/crossentropy": 2.6464812755584717,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1630859375,
      "loss/idx": 0.0,
      "loss/logits": 0.04545789211988449,
      "step": 640
    },
    {
      "epoch": 0.005282807387688834,
      "grad_norm": 32.0,
      "grad_norm_var": 54.56477762858073,
      "learning_rate": 5e-05,
      "loss": 0.8256,
      "loss/crossentropy": 3.0567638874053955,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.546875,
      "loss/idx": 0.0,
      "loss/logits": 0.27873265743255615,
      "step": 641
    },
    {
      "epoch": 0.005291048896873996,
      "grad_norm": 3.09375,
      "grad_norm_var": 54.431278483072916,
      "learning_rate": 5e-05,
      "loss": 0.2481,
      "loss/crossentropy": 1.814937949180603,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.197265625,
      "loss/idx": 0.0,
      "loss/logits": 0.050825513899326324,
      "step": 642
    },
    {
      "epoch": 0.0052992904060591576,
      "grad_norm": 3.5,
      "grad_norm_var": 54.29631754557292,
      "learning_rate": 5e-05,
      "loss": 0.1537,
      "loss/crossentropy": 1.2851777076721191,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1337890625,
      "loss/idx": 0.0,
      "loss/logits": 0.019936833530664444,
      "step": 643
    },
    {
      "epoch": 0.0053075319152443194,
      "grad_norm": 7.25,
      "grad_norm_var": 54.24651285807292,
      "learning_rate": 5e-05,
      "loss": 0.2315,
      "loss/crossentropy": 1.3410425186157227,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2001953125,
      "loss/idx": 0.0,
      "loss/logits": 0.03128086030483246,
      "step": 644
    },
    {
      "epoch": 0.005315773424429481,
      "grad_norm": 2.34375,
      "grad_norm_var": 54.49813537597656,
      "learning_rate": 5e-05,
      "loss": 0.1844,
      "loss/crossentropy": 2.3179078102111816,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1435546875,
      "loss/idx": 0.0,
      "loss/logits": 0.04083427041769028,
      "step": 645
    },
    {
      "epoch": 0.005324014933614643,
      "grad_norm": 3.90625,
      "grad_norm_var": 53.952762858072916,
      "learning_rate": 5e-05,
      "loss": 0.2196,
      "loss/crossentropy": 2.614328384399414,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1689453125,
      "loss/idx": 0.0,
      "loss/logits": 0.05064046010375023,
      "step": 646
    },
    {
      "epoch": 0.005332256442799805,
      "grad_norm": 3088.0,
      "grad_norm_var": 594094.3569895426,
      "learning_rate": 5e-05,
      "loss": 74.0435,
      "loss/crossentropy": 5.280629634857178,
      "loss/dist_ce": 0.0,
      "loss/hidden": 70.5,
      "loss/idx": 0.0,
      "loss/logits": 3.543522834777832,
      "step": 647
    },
    {
      "epoch": 0.005340497951984968,
      "grad_norm": 6.65625,
      "grad_norm_var": 593994.1685831706,
      "learning_rate": 5e-05,
      "loss": 0.3181,
      "loss/crossentropy": 2.1775877475738525,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.26171875,
      "loss/idx": 0.0,
      "loss/logits": 0.05634221434593201,
      "step": 648
    },
    {
      "epoch": 0.00534873946117013,
      "grad_norm": 3.375,
      "grad_norm_var": 593944.0428049724,
      "learning_rate": 5e-05,
      "loss": 0.2034,
      "loss/crossentropy": 1.4645721912384033,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.169921875,
      "loss/idx": 0.0,
      "loss/logits": 0.03352264687418938,
      "step": 649
    },
    {
      "epoch": 0.005356980970355292,
      "grad_norm": 1.15625,
      "grad_norm_var": 593951.4221018474,
      "learning_rate": 5e-05,
      "loss": 0.1173,
      "loss/crossentropy": 1.4656540155410767,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0986328125,
      "loss/idx": 0.0,
      "loss/logits": 0.018643483519554138,
      "step": 650
    },
    {
      "epoch": 0.005365222479540454,
      "grad_norm": 1.1953125,
      "grad_norm_var": 594006.2750038147,
      "learning_rate": 5e-05,
      "loss": 0.1105,
      "loss/crossentropy": 0.5469728708267212,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.095703125,
      "loss/idx": 0.0,
      "loss/logits": 0.014785300940275192,
      "step": 651
    },
    {
      "epoch": 0.0053734639887256155,
      "grad_norm": 1.796875,
      "grad_norm_var": 594028.2904518128,
      "learning_rate": 5e-05,
      "loss": 0.1277,
      "loss/crossentropy": 1.5997320413589478,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.103515625,
      "loss/idx": 0.0,
      "loss/logits": 0.024179790169000626,
      "step": 652
    },
    {
      "epoch": 0.005381705497910777,
      "grad_norm": 2.546875,
      "grad_norm_var": 594019.3290728251,
      "learning_rate": 5e-05,
      "loss": 0.2144,
      "loss/crossentropy": 1.897312045097351,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16796875,
      "loss/idx": 0.0,
      "loss/logits": 0.04644346237182617,
      "step": 653
    },
    {
      "epoch": 0.005389947007095939,
      "grad_norm": 7.25,
      "grad_norm_var": 593904.7219866435,
      "learning_rate": 5e-05,
      "loss": 0.1896,
      "loss/crossentropy": 0.3107888996601105,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16796875,
      "loss/idx": 0.0,
      "loss/logits": 0.021600116044282913,
      "step": 654
    },
    {
      "epoch": 0.005398188516281101,
      "grad_norm": 3.40625,
      "grad_norm_var": 593915.6656878154,
      "learning_rate": 5e-05,
      "loss": 0.2583,
      "loss/crossentropy": 2.793339967727661,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.201171875,
      "loss/idx": 0.0,
      "loss/logits": 0.057117462158203125,
      "step": 655
    },
    {
      "epoch": 0.005406430025466263,
      "grad_norm": 2.328125,
      "grad_norm_var": 593934.8025632222,
      "learning_rate": 5e-05,
      "loss": 0.18,
      "loss/crossentropy": 1.4796594381332397,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15234375,
      "loss/idx": 0.0,
      "loss/logits": 0.027638476341962814,
      "step": 656
    },
    {
      "epoch": 0.005414671534651425,
      "grad_norm": 1.6875,
      "grad_norm_var": 594663.6030799865,
      "learning_rate": 5e-05,
      "loss": 0.1305,
      "loss/crossentropy": 1.4301519393920898,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.109375,
      "loss/idx": 0.0,
      "loss/logits": 0.021160051226615906,
      "step": 657
    },
    {
      "epoch": 0.005422913043836588,
      "grad_norm": 1.8203125,
      "grad_norm_var": 594696.4953653972,
      "learning_rate": 5e-05,
      "loss": 0.1742,
      "loss/crossentropy": 1.6321804523468018,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1376953125,
      "loss/idx": 0.0,
      "loss/logits": 0.03655288740992546,
      "step": 658
    },
    {
      "epoch": 0.00543115455302175,
      "grad_norm": 3.46875,
      "grad_norm_var": 594697.2980875651,
      "learning_rate": 5e-05,
      "loss": 0.263,
      "loss/crossentropy": 2.723104476928711,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.19921875,
      "loss/idx": 0.0,
      "loss/logits": 0.0637696385383606,
      "step": 659
    },
    {
      "epoch": 0.0054393960622069115,
      "grad_norm": 3.140625,
      "grad_norm_var": 594801.8477040608,
      "learning_rate": 5e-05,
      "loss": 0.1395,
      "loss/crossentropy": 1.4695775508880615,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.021351780742406845,
      "step": 660
    },
    {
      "epoch": 0.005447637571392073,
      "grad_norm": 1.9375,
      "grad_norm_var": 594812.3412261963,
      "learning_rate": 5e-05,
      "loss": 0.1788,
      "loss/crossentropy": 2.657424211502075,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.138671875,
      "loss/idx": 0.0,
      "loss/logits": 0.040120575577020645,
      "step": 661
    },
    {
      "epoch": 0.005455879080577235,
      "grad_norm": 5.0,
      "grad_norm_var": 594784.4235422771,
      "learning_rate": 5e-05,
      "loss": 0.1576,
      "loss/crossentropy": 0.4258406162261963,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1396484375,
      "loss/idx": 0.0,
      "loss/logits": 0.01790551282465458,
      "step": 662
    },
    {
      "epoch": 0.005464120589762397,
      "grad_norm": 3.109375,
      "grad_norm_var": 3.251456705729167,
      "learning_rate": 5e-05,
      "loss": 0.2469,
      "loss/crossentropy": 1.6977794170379639,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.208984375,
      "loss/idx": 0.0,
      "loss/logits": 0.03788114711642265,
      "step": 663
    },
    {
      "epoch": 0.005472362098947559,
      "grad_norm": 1.8828125,
      "grad_norm_var": 2.4230974833170573,
      "learning_rate": 5e-05,
      "loss": 0.1297,
      "loss/crossentropy": 1.3648561239242554,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1083984375,
      "loss/idx": 0.0,
      "loss/logits": 0.021297637373209,
      "step": 664
    },
    {
      "epoch": 0.005480603608132721,
      "grad_norm": 1.828125,
      "grad_norm_var": 2.4579424540201824,
      "learning_rate": 5e-05,
      "loss": 0.1722,
      "loss/crossentropy": 2.6582846641540527,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1337890625,
      "loss/idx": 0.0,
      "loss/logits": 0.03840293735265732,
      "step": 665
    },
    {
      "epoch": 0.005488845117317883,
      "grad_norm": 1.703125,
      "grad_norm_var": 2.3624529520670574,
      "learning_rate": 5e-05,
      "loss": 0.1233,
      "loss/crossentropy": 1.4073052406311035,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.103515625,
      "loss/idx": 0.0,
      "loss/logits": 0.019805913791060448,
      "step": 666
    },
    {
      "epoch": 0.005497086626503046,
      "grad_norm": 3.015625,
      "grad_norm_var": 2.1906728108723956,
      "learning_rate": 5e-05,
      "loss": 0.1421,
      "loss/crossentropy": 1.2232915163040161,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.02389139123260975,
      "step": 667
    },
    {
      "epoch": 0.0055053281356882075,
      "grad_norm": 2.078125,
      "grad_norm_var": 2.155370076497396,
      "learning_rate": 5e-05,
      "loss": 0.1769,
      "loss/crossentropy": 2.633976697921753,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.138671875,
      "loss/idx": 0.0,
      "loss/logits": 0.03825639933347702,
      "step": 668
    },
    {
      "epoch": 0.005513569644873369,
      "grad_norm": 1.3984375,
      "grad_norm_var": 2.289989980061849,
      "learning_rate": 5e-05,
      "loss": 0.1432,
      "loss/crossentropy": 2.7594661712646484,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1123046875,
      "loss/idx": 0.0,
      "loss/logits": 0.030905555933713913,
      "step": 669
    },
    {
      "epoch": 0.005521811154058531,
      "grad_norm": 2.875,
      "grad_norm_var": 0.899731190999349,
      "learning_rate": 5e-05,
      "loss": 0.2301,
      "loss/crossentropy": 2.9316701889038086,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.171875,
      "loss/idx": 0.0,
      "loss/logits": 0.058252155780792236,
      "step": 670
    },
    {
      "epoch": 0.005530052663243693,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.8554888407389323,
      "learning_rate": 5e-05,
      "loss": 0.1341,
      "loss/crossentropy": 1.2458611726760864,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.111328125,
      "loss/idx": 0.0,
      "loss/logits": 0.022815225645899773,
      "step": 671
    },
    {
      "epoch": 0.005538294172428855,
      "grad_norm": 1.859375,
      "grad_norm_var": 0.8775530497233073,
      "learning_rate": 5e-05,
      "loss": 0.1773,
      "loss/crossentropy": 1.787272572517395,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.138671875,
      "loss/idx": 0.0,
      "loss/logits": 0.03861699998378754,
      "step": 672
    },
    {
      "epoch": 0.005546535681614017,
      "grad_norm": 5.40625,
      "grad_norm_var": 1.3726600646972655,
      "learning_rate": 5e-05,
      "loss": 0.2194,
      "loss/crossentropy": 1.330421805381775,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1943359375,
      "loss/idx": 0.0,
      "loss/logits": 0.025075137615203857,
      "step": 673
    },
    {
      "epoch": 0.005554777190799179,
      "grad_norm": 0.9609375,
      "grad_norm_var": 1.5155535380045573,
      "learning_rate": 5e-05,
      "loss": 0.1263,
      "loss/crossentropy": 2.6272873878479004,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1015625,
      "loss/idx": 0.0,
      "loss/logits": 0.024767953902482986,
      "step": 674
    },
    {
      "epoch": 0.005563018699984341,
      "grad_norm": 5.375,
      "grad_norm_var": 1.9607175191243489,
      "learning_rate": 5e-05,
      "loss": 0.3144,
      "loss/crossentropy": 3.5015265941619873,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.23828125,
      "loss/idx": 0.0,
      "loss/logits": 0.07607264816761017,
      "step": 675
    },
    {
      "epoch": 0.0055712602091695035,
      "grad_norm": 2.546875,
      "grad_norm_var": 1.9502418518066407,
      "learning_rate": 5e-05,
      "loss": 0.2386,
      "loss/crossentropy": 2.711198091506958,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1875,
      "loss/idx": 0.0,
      "loss/logits": 0.05106600373983383,
      "step": 676
    },
    {
      "epoch": 0.005579501718354665,
      "grad_norm": 2.765625,
      "grad_norm_var": 1.909698232014974,
      "learning_rate": 5e-05,
      "loss": 0.203,
      "loss/crossentropy": 1.9062882661819458,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1640625,
      "loss/idx": 0.0,
      "loss/logits": 0.03898348659276962,
      "step": 677
    },
    {
      "epoch": 0.005587743227539827,
      "grad_norm": 1.796875,
      "grad_norm_var": 1.5877174377441405,
      "learning_rate": 5e-05,
      "loss": 0.1617,
      "loss/crossentropy": 2.5185117721557617,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.126953125,
      "loss/idx": 0.0,
      "loss/logits": 0.03473159298300743,
      "step": 678
    },
    {
      "epoch": 0.005595984736724989,
      "grad_norm": 3.71875,
      "grad_norm_var": 1.6568275451660157,
      "learning_rate": 5e-05,
      "loss": 0.1797,
      "loss/crossentropy": 1.0520906448364258,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1640625,
      "loss/idx": 0.0,
      "loss/logits": 0.015656642615795135,
      "step": 679
    },
    {
      "epoch": 0.005604226245910151,
      "grad_norm": 3.34375,
      "grad_norm_var": 1.6539265950520834,
      "learning_rate": 5e-05,
      "loss": 0.1532,
      "loss/crossentropy": 1.6271475553512573,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.130859375,
      "loss/idx": 0.0,
      "loss/logits": 0.022353362292051315,
      "step": 680
    },
    {
      "epoch": 0.005612467755095313,
      "grad_norm": 1.6796875,
      "grad_norm_var": 1.6720415751139324,
      "learning_rate": 5e-05,
      "loss": 0.1228,
      "loss/crossentropy": 0.8219252228736877,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1083984375,
      "loss/idx": 0.0,
      "loss/logits": 0.014401828870177269,
      "step": 681
    },
    {
      "epoch": 0.005620709264280475,
      "grad_norm": 2.46875,
      "grad_norm_var": 1.6105323791503907,
      "learning_rate": 5e-05,
      "loss": 0.1697,
      "loss/crossentropy": 1.7836802005767822,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1328125,
      "loss/idx": 0.0,
      "loss/logits": 0.03692241013050079,
      "step": 682
    },
    {
      "epoch": 0.005628950773465637,
      "grad_norm": 5.0,
      "grad_norm_var": 1.9368690490722655,
      "learning_rate": 5e-05,
      "loss": 0.2266,
      "loss/crossentropy": 2.947277784347534,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1796875,
      "loss/idx": 0.0,
      "loss/logits": 0.04695526510477066,
      "step": 683
    },
    {
      "epoch": 0.005637192282650799,
      "grad_norm": 3.171875,
      "grad_norm_var": 1.9010515848795573,
      "learning_rate": 5e-05,
      "loss": 0.1932,
      "loss/crossentropy": 2.684128999710083,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15234375,
      "loss/idx": 0.0,
      "loss/logits": 0.04086027294397354,
      "step": 684
    },
    {
      "epoch": 0.005645433791835961,
      "grad_norm": 3.90625,
      "grad_norm_var": 1.7904368082682292,
      "learning_rate": 5e-05,
      "loss": 0.3706,
      "loss/crossentropy": 2.2005116939544678,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.30078125,
      "loss/idx": 0.0,
      "loss/logits": 0.06984560191631317,
      "step": 685
    },
    {
      "epoch": 0.005653675301021123,
      "grad_norm": 4.5625,
      "grad_norm_var": 1.9264475504557292,
      "learning_rate": 5e-05,
      "loss": 0.2539,
      "loss/crossentropy": 2.7152457237243652,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.19921875,
      "loss/idx": 0.0,
      "loss/logits": 0.05464334040880203,
      "step": 686
    },
    {
      "epoch": 0.005661916810206285,
      "grad_norm": 3.6875,
      "grad_norm_var": 1.8595621744791666,
      "learning_rate": 5e-05,
      "loss": 0.2398,
      "loss/crossentropy": 3.029996633529663,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1796875,
      "loss/idx": 0.0,
      "loss/logits": 0.060077205300331116,
      "step": 687
    },
    {
      "epoch": 0.005670158319391447,
      "grad_norm": 2.3125,
      "grad_norm_var": 1.787433878580729,
      "learning_rate": 5e-05,
      "loss": 0.1699,
      "loss/crossentropy": 2.006049156188965,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1376953125,
      "loss/idx": 0.0,
      "loss/logits": 0.032181136310100555,
      "step": 688
    },
    {
      "epoch": 0.005678399828576609,
      "grad_norm": 3.296875,
      "grad_norm_var": 1.4714396158854166,
      "learning_rate": 5e-05,
      "loss": 0.176,
      "loss/crossentropy": 2.032977819442749,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.138671875,
      "loss/idx": 0.0,
      "loss/logits": 0.037300050258636475,
      "step": 689
    },
    {
      "epoch": 0.005686641337761771,
      "grad_norm": 2.0,
      "grad_norm_var": 1.2339637756347657,
      "learning_rate": 5e-05,
      "loss": 0.1712,
      "loss/crossentropy": 1.572161316871643,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1474609375,
      "loss/idx": 0.0,
      "loss/logits": 0.023761317133903503,
      "step": 690
    },
    {
      "epoch": 0.005694882846946933,
      "grad_norm": 1.578125,
      "grad_norm_var": 1.0475807189941406,
      "learning_rate": 5e-05,
      "loss": 0.1608,
      "loss/crossentropy": 0.5517882704734802,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.138671875,
      "loss/idx": 0.0,
      "loss/logits": 0.02215992659330368,
      "step": 691
    },
    {
      "epoch": 0.005703124356132095,
      "grad_norm": 2.1875,
      "grad_norm_var": 1.076873524983724,
      "learning_rate": 5e-05,
      "loss": 0.1669,
      "loss/crossentropy": 2.8021109104156494,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.130859375,
      "loss/idx": 0.0,
      "loss/logits": 0.036080196499824524,
      "step": 692
    },
    {
      "epoch": 0.005711365865317257,
      "grad_norm": 1.140625,
      "grad_norm_var": 1.2856056213378906,
      "learning_rate": 5e-05,
      "loss": 0.1113,
      "loss/crossentropy": 0.46256670355796814,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.09716796875,
      "loss/idx": 0.0,
      "loss/logits": 0.014169261790812016,
      "step": 693
    },
    {
      "epoch": 0.0057196073745024185,
      "grad_norm": 1.8046875,
      "grad_norm_var": 1.284496053059896,
      "learning_rate": 5e-05,
      "loss": 0.145,
      "loss/crossentropy": 1.454952359199524,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12109375,
      "loss/idx": 0.0,
      "loss/logits": 0.023933004587888718,
      "step": 694
    },
    {
      "epoch": 0.005727848883687581,
      "grad_norm": 1.34375,
      "grad_norm_var": 1.3670644124348958,
      "learning_rate": 5e-05,
      "loss": 0.1255,
      "loss/crossentropy": 1.4848099946975708,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.103515625,
      "loss/idx": 0.0,
      "loss/logits": 0.021940922364592552,
      "step": 695
    },
    {
      "epoch": 0.005736090392872743,
      "grad_norm": 4.125,
      "grad_norm_var": 1.470417277018229,
      "learning_rate": 5e-05,
      "loss": 0.2243,
      "loss/crossentropy": 2.6562836170196533,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1748046875,
      "loss/idx": 0.0,
      "loss/logits": 0.04948100447654724,
      "step": 696
    },
    {
      "epoch": 0.005744331902057905,
      "grad_norm": 3.71875,
      "grad_norm_var": 1.4347735087076823,
      "learning_rate": 5e-05,
      "loss": 0.1446,
      "loss/crossentropy": 1.2862632274627686,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.125,
      "loss/idx": 0.0,
      "loss/logits": 0.019616402685642242,
      "step": 697
    },
    {
      "epoch": 0.005752573411243067,
      "grad_norm": 2.53125,
      "grad_norm_var": 1.4314735412597657,
      "learning_rate": 5e-05,
      "loss": 0.1774,
      "loss/crossentropy": 2.1273880004882812,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.140625,
      "loss/idx": 0.0,
      "loss/logits": 0.036726418882608414,
      "step": 698
    },
    {
      "epoch": 0.005760814920428229,
      "grad_norm": 1.7421875,
      "grad_norm_var": 1.1817291259765625,
      "learning_rate": 5e-05,
      "loss": 0.1739,
      "loss/crossentropy": 2.4990146160125732,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1357421875,
      "loss/idx": 0.0,
      "loss/logits": 0.03811194375157356,
      "step": 699
    },
    {
      "epoch": 0.005769056429613391,
      "grad_norm": 4.15625,
      "grad_norm_var": 1.30496826171875,
      "learning_rate": 5e-05,
      "loss": 0.252,
      "loss/crossentropy": 2.5132620334625244,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2041015625,
      "loss/idx": 0.0,
      "loss/logits": 0.04793284088373184,
      "step": 700
    },
    {
      "epoch": 0.005777297938798553,
      "grad_norm": 3.359375,
      "grad_norm_var": 1.2397776285807292,
      "learning_rate": 5e-05,
      "loss": 0.2582,
      "loss/crossentropy": 2.5892200469970703,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.203125,
      "loss/idx": 0.0,
      "loss/logits": 0.05511770024895668,
      "step": 701
    },
    {
      "epoch": 0.0057855394479837145,
      "grad_norm": 3.328125,
      "grad_norm_var": 1.0320393880208334,
      "learning_rate": 5e-05,
      "loss": 0.2048,
      "loss/crossentropy": 1.6278858184814453,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1650390625,
      "loss/idx": 0.0,
      "loss/logits": 0.03974189609289169,
      "step": 702
    },
    {
      "epoch": 0.005793780957168876,
      "grad_norm": 5.4375,
      "grad_norm_var": 1.4668050130208334,
      "learning_rate": 5e-05,
      "loss": 0.2686,
      "loss/crossentropy": 1.9843369722366333,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.047865502536296844,
      "step": 703
    },
    {
      "epoch": 0.005802022466354039,
      "grad_norm": 1.1796875,
      "grad_norm_var": 1.6136797587076823,
      "learning_rate": 5e-05,
      "loss": 0.1149,
      "loss/crossentropy": 1.3343570232391357,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.095703125,
      "loss/idx": 0.0,
      "loss/logits": 0.019155774265527725,
      "step": 704
    },
    {
      "epoch": 0.005810263975539201,
      "grad_norm": 2.78125,
      "grad_norm_var": 1.5880999247233072,
      "learning_rate": 5e-05,
      "loss": 0.2146,
      "loss/crossentropy": 1.3166966438293457,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1796875,
      "loss/idx": 0.0,
      "loss/logits": 0.03489375486969948,
      "step": 705
    },
    {
      "epoch": 0.005818505484724363,
      "grad_norm": 3.109375,
      "grad_norm_var": 1.568743642171224,
      "learning_rate": 5e-05,
      "loss": 0.2285,
      "loss/crossentropy": 1.6788283586502075,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1845703125,
      "loss/idx": 0.0,
      "loss/logits": 0.043936047703027725,
      "step": 706
    },
    {
      "epoch": 0.005826746993909525,
      "grad_norm": 3.3125,
      "grad_norm_var": 1.4926389058430989,
      "learning_rate": 5e-05,
      "loss": 0.1728,
      "loss/crossentropy": 2.161801815032959,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.138671875,
      "loss/idx": 0.0,
      "loss/logits": 0.034114591777324677,
      "step": 707
    },
    {
      "epoch": 0.005834988503094687,
      "grad_norm": 3.015625,
      "grad_norm_var": 1.4647112528483073,
      "learning_rate": 5e-05,
      "loss": 0.1577,
      "loss/crossentropy": 2.5755579471588135,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.125,
      "loss/idx": 0.0,
      "loss/logits": 0.032723598182201385,
      "step": 708
    },
    {
      "epoch": 0.005843230012279849,
      "grad_norm": 3.015625,
      "grad_norm_var": 1.2495012919108073,
      "learning_rate": 5e-05,
      "loss": 0.2659,
      "loss/crossentropy": 2.3093197345733643,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.21484375,
      "loss/idx": 0.0,
      "loss/logits": 0.05105920881032944,
      "step": 709
    },
    {
      "epoch": 0.0058514715214650105,
      "grad_norm": 3.3125,
      "grad_norm_var": 1.1517781575520833,
      "learning_rate": 5e-05,
      "loss": 0.2048,
      "loss/crossentropy": 1.972427248954773,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1640625,
      "loss/idx": 0.0,
      "loss/logits": 0.04072684049606323,
      "step": 710
    },
    {
      "epoch": 0.005859713030650172,
      "grad_norm": 1.375,
      "grad_norm_var": 1.1445556640625,
      "learning_rate": 5e-05,
      "loss": 0.1302,
      "loss/crossentropy": 1.6267015933990479,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.107421875,
      "loss/idx": 0.0,
      "loss/logits": 0.022783808410167694,
      "step": 711
    },
    {
      "epoch": 0.005867954539835334,
      "grad_norm": 3.046875,
      "grad_norm_var": 1.0689605712890624,
      "learning_rate": 5e-05,
      "loss": 0.1712,
      "loss/crossentropy": 2.76011323928833,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1337890625,
      "loss/idx": 0.0,
      "loss/logits": 0.037429310381412506,
      "step": 712
    },
    {
      "epoch": 0.005876196049020497,
      "grad_norm": 1.8125,
      "grad_norm_var": 1.1200917561848958,
      "learning_rate": 5e-05,
      "loss": 0.1373,
      "loss/crossentropy": 1.5537292957305908,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11572265625,
      "loss/idx": 0.0,
      "loss/logits": 0.021540062502026558,
      "step": 713
    },
    {
      "epoch": 0.005884437558205659,
      "grad_norm": 1.90625,
      "grad_norm_var": 1.1758371988932292,
      "learning_rate": 5e-05,
      "loss": 0.1585,
      "loss/crossentropy": 2.612987995147705,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.036412760615348816,
      "step": 714
    },
    {
      "epoch": 0.005892679067390821,
      "grad_norm": 1.8671875,
      "grad_norm_var": 1.1580474853515625,
      "learning_rate": 5e-05,
      "loss": 0.1586,
      "loss/crossentropy": 2.5890583992004395,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.125,
      "loss/idx": 0.0,
      "loss/logits": 0.033603958785533905,
      "step": 715
    },
    {
      "epoch": 0.005900920576575983,
      "grad_norm": 1.671875,
      "grad_norm_var": 1.11971435546875,
      "learning_rate": 5e-05,
      "loss": 0.1545,
      "loss/crossentropy": 2.612929344177246,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.0363757461309433,
      "step": 716
    },
    {
      "epoch": 0.005909162085761145,
      "grad_norm": 3.078125,
      "grad_norm_var": 1.1007080078125,
      "learning_rate": 5e-05,
      "loss": 0.1632,
      "loss/crossentropy": 0.4507390856742859,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1416015625,
      "loss/idx": 0.0,
      "loss/logits": 0.021595872938632965,
      "step": 717
    },
    {
      "epoch": 0.0059174035949463065,
      "grad_norm": 8.25,
      "grad_norm_var": 3.0249176025390625,
      "learning_rate": 5e-05,
      "loss": 0.1985,
      "loss/crossentropy": 0.8891280889511108,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1748046875,
      "loss/idx": 0.0,
      "loss/logits": 0.023697488009929657,
      "step": 718
    },
    {
      "epoch": 0.005925645104131468,
      "grad_norm": 0.90625,
      "grad_norm_var": 2.842015584309896,
      "learning_rate": 5e-05,
      "loss": 0.1113,
      "loss/crossentropy": 1.2778152227401733,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.09423828125,
      "loss/idx": 0.0,
      "loss/logits": 0.017108086496591568,
      "step": 719
    },
    {
      "epoch": 0.00593388661331663,
      "grad_norm": 3.625,
      "grad_norm_var": 2.711073557535807,
      "learning_rate": 5e-05,
      "loss": 0.1612,
      "loss/crossentropy": 2.4469552040100098,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1318359375,
      "loss/idx": 0.0,
      "loss/logits": 0.029361439868807793,
      "step": 720
    },
    {
      "epoch": 0.005942128122501792,
      "grad_norm": 1.4453125,
      "grad_norm_var": 2.8402750651041666,
      "learning_rate": 5e-05,
      "loss": 0.1502,
      "loss/crossentropy": 2.1400833129882812,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11669921875,
      "loss/idx": 0.0,
      "loss/logits": 0.033529091626405716,
      "step": 721
    },
    {
      "epoch": 0.005950369631686954,
      "grad_norm": 2.109375,
      "grad_norm_var": 2.8611083984375,
      "learning_rate": 5e-05,
      "loss": 0.1749,
      "loss/crossentropy": 1.3967795372009277,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.03236193209886551,
      "step": 722
    },
    {
      "epoch": 0.005958611140872117,
      "grad_norm": 2.15625,
      "grad_norm_var": 2.855537923177083,
      "learning_rate": 5e-05,
      "loss": 0.2143,
      "loss/crossentropy": 2.475792646408081,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.166015625,
      "loss/idx": 0.0,
      "loss/logits": 0.048240065574645996,
      "step": 723
    },
    {
      "epoch": 0.005966852650057279,
      "grad_norm": 2.359375,
      "grad_norm_var": 2.8515218098958335,
      "learning_rate": 5e-05,
      "loss": 0.1735,
      "loss/crossentropy": 2.5644333362579346,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1328125,
      "loss/idx": 0.0,
      "loss/logits": 0.04069886356592178,
      "step": 724
    },
    {
      "epoch": 0.005975094159242441,
      "grad_norm": 2.0625,
      "grad_norm_var": 2.8581614176432293,
      "learning_rate": 5e-05,
      "loss": 0.1677,
      "loss/crossentropy": 2.2065787315368652,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.130859375,
      "loss/idx": 0.0,
      "loss/logits": 0.0367942750453949,
      "step": 725
    },
    {
      "epoch": 0.0059833356684276025,
      "grad_norm": 2.734375,
      "grad_norm_var": 2.8211629231770834,
      "learning_rate": 5e-05,
      "loss": 0.2124,
      "loss/crossentropy": 2.876722574234009,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1630859375,
      "loss/idx": 0.0,
      "loss/logits": 0.049362972378730774,
      "step": 726
    },
    {
      "epoch": 0.0059915771776127644,
      "grad_norm": 8.0,
      "grad_norm_var": 4.548148600260417,
      "learning_rate": 5e-05,
      "loss": 0.1838,
      "loss/crossentropy": 1.2283939123153687,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15234375,
      "loss/idx": 0.0,
      "loss/logits": 0.03141150623559952,
      "step": 727
    },
    {
      "epoch": 0.005999818686797926,
      "grad_norm": 1.8671875,
      "grad_norm_var": 4.618230946858724,
      "learning_rate": 5e-05,
      "loss": 0.1644,
      "loss/crossentropy": 2.0428686141967773,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1328125,
      "loss/idx": 0.0,
      "loss/logits": 0.03161695599555969,
      "step": 728
    },
    {
      "epoch": 0.006008060195983088,
      "grad_norm": 7.65625,
      "grad_norm_var": 5.931933339436849,
      "learning_rate": 5e-05,
      "loss": 0.3075,
      "loss/crossentropy": 2.5533790588378906,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.240234375,
      "loss/idx": 0.0,
      "loss/logits": 0.0672769546508789,
      "step": 729
    },
    {
      "epoch": 0.00601630170516825,
      "grad_norm": 2.46875,
      "grad_norm_var": 5.852355702718099,
      "learning_rate": 5e-05,
      "loss": 0.1774,
      "loss/crossentropy": 1.7351176738739014,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.150390625,
      "loss/idx": 0.0,
      "loss/logits": 0.027032926678657532,
      "step": 730
    },
    {
      "epoch": 0.006024543214353412,
      "grad_norm": 1.9453125,
      "grad_norm_var": 5.838165028889974,
      "learning_rate": 5e-05,
      "loss": 0.1815,
      "loss/crossentropy": 2.6725094318389893,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.038890693336725235,
      "step": 731
    },
    {
      "epoch": 0.006032784723538575,
      "grad_norm": 2.28125,
      "grad_norm_var": 5.731445058186849,
      "learning_rate": 5e-05,
      "loss": 0.1753,
      "loss/crossentropy": 1.6290442943572998,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1435546875,
      "loss/idx": 0.0,
      "loss/logits": 0.031768545508384705,
      "step": 732
    },
    {
      "epoch": 0.006041026232723737,
      "grad_norm": 5.59375,
      "grad_norm_var": 6.049501291910807,
      "learning_rate": 5e-05,
      "loss": 0.2555,
      "loss/crossentropy": 2.4887194633483887,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.205078125,
      "loss/idx": 0.0,
      "loss/logits": 0.05038648098707199,
      "step": 733
    },
    {
      "epoch": 0.0060492677419088986,
      "grad_norm": 1.859375,
      "grad_norm_var": 4.525903065999349,
      "learning_rate": 5e-05,
      "loss": 0.1672,
      "loss/crossentropy": 1.4916491508483887,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.03243900462985039,
      "step": 734
    },
    {
      "epoch": 0.0060575092510940605,
      "grad_norm": 6.28125,
      "grad_norm_var": 4.783105214436849,
      "learning_rate": 5e-05,
      "loss": 0.2469,
      "loss/crossentropy": 1.9904972314834595,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.193359375,
      "loss/idx": 0.0,
      "loss/logits": 0.05358533933758736,
      "step": 735
    },
    {
      "epoch": 0.006065750760279222,
      "grad_norm": 4.90625,
      "grad_norm_var": 4.923659006754558,
      "learning_rate": 5e-05,
      "loss": 0.3124,
      "loss/crossentropy": 3.1595237255096436,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.240234375,
      "loss/idx": 0.0,
      "loss/logits": 0.07215666770935059,
      "step": 736
    },
    {
      "epoch": 0.006073992269464384,
      "grad_norm": 2.296875,
      "grad_norm_var": 4.737629191080729,
      "learning_rate": 5e-05,
      "loss": 0.1351,
      "loss/crossentropy": 0.5982239842414856,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11767578125,
      "loss/idx": 0.0,
      "loss/logits": 0.017444239929318428,
      "step": 737
    },
    {
      "epoch": 0.006082233778649546,
      "grad_norm": 2.1875,
      "grad_norm_var": 4.723148600260417,
      "learning_rate": 5e-05,
      "loss": 0.1614,
      "loss/crossentropy": 1.076785922050476,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.13671875,
      "loss/idx": 0.0,
      "loss/logits": 0.02469494380056858,
      "step": 738
    },
    {
      "epoch": 0.006090475287834708,
      "grad_norm": 2.609375,
      "grad_norm_var": 4.6523183186848955,
      "learning_rate": 5e-05,
      "loss": 0.2057,
      "loss/crossentropy": 2.2849977016448975,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1513671875,
      "loss/idx": 0.0,
      "loss/logits": 0.05430486798286438,
      "step": 739
    },
    {
      "epoch": 0.00609871679701987,
      "grad_norm": 2.578125,
      "grad_norm_var": 4.620018513997396,
      "learning_rate": 5e-05,
      "loss": 0.2088,
      "loss/crossentropy": 1.5881438255310059,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1708984375,
      "loss/idx": 0.0,
      "loss/logits": 0.037879034876823425,
      "step": 740
    },
    {
      "epoch": 0.006106958306205033,
      "grad_norm": 1.671875,
      "grad_norm_var": 4.708748372395833,
      "learning_rate": 5e-05,
      "loss": 0.1337,
      "loss/crossentropy": 1.5729397535324097,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.01942865364253521,
      "step": 741
    },
    {
      "epoch": 0.006115199815390195,
      "grad_norm": 1.7578125,
      "grad_norm_var": 4.875673166910807,
      "learning_rate": 5e-05,
      "loss": 0.1473,
      "loss/crossentropy": 2.5460681915283203,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11865234375,
      "loss/idx": 0.0,
      "loss/logits": 0.028684455901384354,
      "step": 742
    },
    {
      "epoch": 0.0061234413245753565,
      "grad_norm": 3.484375,
      "grad_norm_var": 3.4392575581868488,
      "learning_rate": 5e-05,
      "loss": 0.197,
      "loss/crossentropy": 2.502234697341919,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.158203125,
      "loss/idx": 0.0,
      "loss/logits": 0.03875020891427994,
      "step": 743
    },
    {
      "epoch": 0.006131682833760518,
      "grad_norm": 1.5625,
      "grad_norm_var": 3.499828084309896,
      "learning_rate": 5e-05,
      "loss": 0.1167,
      "loss/crossentropy": 0.5112316608428955,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10546875,
      "loss/idx": 0.0,
      "loss/logits": 0.011273887008428574,
      "step": 744
    },
    {
      "epoch": 0.00613992434294568,
      "grad_norm": 1.734375,
      "grad_norm_var": 2.17010498046875,
      "learning_rate": 5e-05,
      "loss": 0.1642,
      "loss/crossentropy": 1.5730743408203125,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.029403435066342354,
      "step": 745
    },
    {
      "epoch": 0.006148165852130842,
      "grad_norm": 5.875,
      "grad_norm_var": 2.7329345703125,
      "learning_rate": 5e-05,
      "loss": 0.2765,
      "loss/crossentropy": 2.3317244052886963,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2236328125,
      "loss/idx": 0.0,
      "loss/logits": 0.05287738889455795,
      "step": 746
    },
    {
      "epoch": 0.006156407361316004,
      "grad_norm": 4.65625,
      "grad_norm_var": 2.7969134012858072,
      "learning_rate": 5e-05,
      "loss": 0.3948,
      "loss/crossentropy": 2.6969289779663086,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.287109375,
      "loss/idx": 0.0,
      "loss/logits": 0.10772477090358734,
      "step": 747
    },
    {
      "epoch": 0.006164648870501166,
      "grad_norm": 2.34375,
      "grad_norm_var": 2.7894304911295573,
      "learning_rate": 5e-05,
      "loss": 0.1563,
      "loss/crossentropy": 2.7726356983184814,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1240234375,
      "loss/idx": 0.0,
      "loss/logits": 0.03231953829526901,
      "step": 748
    },
    {
      "epoch": 0.006172890379686328,
      "grad_norm": 2.3125,
      "grad_norm_var": 2.4205034891764323,
      "learning_rate": 5e-05,
      "loss": 0.1669,
      "loss/crossentropy": 2.8912436962127686,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.130859375,
      "loss/idx": 0.0,
      "loss/logits": 0.03605188801884651,
      "step": 749
    },
    {
      "epoch": 0.00618113188887149,
      "grad_norm": 1.6796875,
      "grad_norm_var": 2.4500244140625,
      "learning_rate": 5e-05,
      "loss": 0.1556,
      "loss/crossentropy": 1.5787498950958252,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1318359375,
      "loss/idx": 0.0,
      "loss/logits": 0.02375878393650055,
      "step": 750
    },
    {
      "epoch": 0.0061893733980566525,
      "grad_norm": 6.1875,
      "grad_norm_var": 2.40950927734375,
      "learning_rate": 5e-05,
      "loss": 0.2622,
      "loss/crossentropy": 1.5021111965179443,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.212890625,
      "loss/idx": 0.0,
      "loss/logits": 0.04928001016378403,
      "step": 751
    },
    {
      "epoch": 0.006197614907241814,
      "grad_norm": 1.828125,
      "grad_norm_var": 2.2153228759765624,
      "learning_rate": 5e-05,
      "loss": 0.1812,
      "loss/crossentropy": 2.771916627883911,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.13671875,
      "loss/idx": 0.0,
      "loss/logits": 0.044479530304670334,
      "step": 752
    },
    {
      "epoch": 0.006205856416426976,
      "grad_norm": 2.265625,
      "grad_norm_var": 2.2174713134765627,
      "learning_rate": 5e-05,
      "loss": 0.1752,
      "loss/crossentropy": 1.6487168073654175,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.03264114260673523,
      "step": 753
    },
    {
      "epoch": 0.006214097925612138,
      "grad_norm": 2.90625,
      "grad_norm_var": 2.191454060872396,
      "learning_rate": 5e-05,
      "loss": 0.2076,
      "loss/crossentropy": 3.0564393997192383,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.158203125,
      "loss/idx": 0.0,
      "loss/logits": 0.04940104857087135,
      "step": 754
    },
    {
      "epoch": 0.0062223394347973,
      "grad_norm": 1.7109375,
      "grad_norm_var": 2.269628651936849,
      "learning_rate": 5e-05,
      "loss": 0.1733,
      "loss/crossentropy": 2.259493112564087,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1337890625,
      "loss/idx": 0.0,
      "loss/logits": 0.03946584463119507,
      "step": 755
    },
    {
      "epoch": 0.006230580943982462,
      "grad_norm": 1.8046875,
      "grad_norm_var": 2.328316243489583,
      "learning_rate": 5e-05,
      "loss": 0.1575,
      "loss/crossentropy": 2.8051905632019043,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1201171875,
      "loss/idx": 0.0,
      "loss/logits": 0.037370190024375916,
      "step": 756
    },
    {
      "epoch": 0.006238822453167624,
      "grad_norm": 2.65625,
      "grad_norm_var": 2.2491689046223957,
      "learning_rate": 5e-05,
      "loss": 0.193,
      "loss/crossentropy": 2.3121681213378906,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1494140625,
      "loss/idx": 0.0,
      "loss/logits": 0.043607860803604126,
      "step": 757
    },
    {
      "epoch": 0.006247063962352786,
      "grad_norm": 1.7265625,
      "grad_norm_var": 2.2535634358723957,
      "learning_rate": 5e-05,
      "loss": 0.1707,
      "loss/crossentropy": 2.660825490951538,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.130859375,
      "loss/idx": 0.0,
      "loss/logits": 0.03984237462282181,
      "step": 758
    },
    {
      "epoch": 0.006255305471537948,
      "grad_norm": 2.46875,
      "grad_norm_var": 2.224800618489583,
      "learning_rate": 5e-05,
      "loss": 0.1356,
      "loss/crossentropy": 1.1409167051315308,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11279296875,
      "loss/idx": 0.0,
      "loss/logits": 0.02284255623817444,
      "step": 759
    },
    {
      "epoch": 0.00626354698072311,
      "grad_norm": 1.96875,
      "grad_norm_var": 2.171744791666667,
      "learning_rate": 5e-05,
      "loss": 0.1432,
      "loss/crossentropy": 1.4278790950775146,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.115234375,
      "loss/idx": 0.0,
      "loss/logits": 0.02792993187904358,
      "step": 760
    },
    {
      "epoch": 0.006271788489908272,
      "grad_norm": 2.875,
      "grad_norm_var": 2.0974110921223956,
      "learning_rate": 5e-05,
      "loss": 0.1644,
      "loss/crossentropy": 1.693648099899292,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1357421875,
      "loss/idx": 0.0,
      "loss/logits": 0.028608174994587898,
      "step": 761
    },
    {
      "epoch": 0.006280029999093434,
      "grad_norm": 1.4140625,
      "grad_norm_var": 1.5294837951660156,
      "learning_rate": 5e-05,
      "loss": 0.1372,
      "loss/crossentropy": 1.6515194177627563,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1171875,
      "loss/idx": 0.0,
      "loss/logits": 0.020010514184832573,
      "step": 762
    },
    {
      "epoch": 0.006288271508278596,
      "grad_norm": 3.578125,
      "grad_norm_var": 1.2993995666503906,
      "learning_rate": 5e-05,
      "loss": 0.228,
      "loss/crossentropy": 2.8086752891540527,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.17578125,
      "loss/idx": 0.0,
      "loss/logits": 0.052195869386196136,
      "step": 763
    },
    {
      "epoch": 0.006296513017463758,
      "grad_norm": 2.515625,
      "grad_norm_var": 1.2980567932128906,
      "learning_rate": 5e-05,
      "loss": 0.1333,
      "loss/crossentropy": 2.0333292484283447,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.109375,
      "loss/idx": 0.0,
      "loss/logits": 0.023911556228995323,
      "step": 764
    },
    {
      "epoch": 0.00630475452664892,
      "grad_norm": 1.703125,
      "grad_norm_var": 1.3359840393066407,
      "learning_rate": 5e-05,
      "loss": 0.1194,
      "loss/crossentropy": 1.3590047359466553,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10302734375,
      "loss/idx": 0.0,
      "loss/logits": 0.016341259703040123,
      "step": 765
    },
    {
      "epoch": 0.006312996035834082,
      "grad_norm": 1.875,
      "grad_norm_var": 1.3181630452473958,
      "learning_rate": 5e-05,
      "loss": 0.1641,
      "loss/crossentropy": 2.541020631790161,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12890625,
      "loss/idx": 0.0,
      "loss/logits": 0.03523167222738266,
      "step": 766
    },
    {
      "epoch": 0.006321237545019244,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.3344960530598958,
      "learning_rate": 5e-05,
      "loss": 0.1642,
      "loss/crossentropy": 3.1116065979003906,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1259765625,
      "loss/idx": 0.0,
      "loss/logits": 0.038257598876953125,
      "step": 767
    },
    {
      "epoch": 0.0063294790542044056,
      "grad_norm": 3.984375,
      "grad_norm_var": 0.5136220296223958,
      "learning_rate": 5e-05,
      "loss": 0.2127,
      "loss/crossentropy": 0.4452613890171051,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1884765625,
      "loss/idx": 0.0,
      "loss/logits": 0.024267811328172684,
      "step": 768
    },
    {
      "epoch": 0.006337720563389568,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.5133778889973958,
      "learning_rate": 5e-05,
      "loss": 0.1991,
      "loss/crossentropy": 2.1372740268707275,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1572265625,
      "loss/idx": 0.0,
      "loss/logits": 0.04187183082103729,
      "step": 769
    },
    {
      "epoch": 0.00634596207257473,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.4933502197265625,
      "learning_rate": 5e-05,
      "loss": 0.147,
      "loss/crossentropy": 1.2034099102020264,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.024930456653237343,
      "step": 770
    },
    {
      "epoch": 0.006354203581759892,
      "grad_norm": 1.640625,
      "grad_norm_var": 0.4993263244628906,
      "learning_rate": 5e-05,
      "loss": 0.154,
      "loss/crossentropy": 1.4210480451583862,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.125,
      "loss/idx": 0.0,
      "loss/logits": 0.0289776474237442,
      "step": 771
    },
    {
      "epoch": 0.006362445090945054,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.5007965087890625,
      "learning_rate": 5e-05,
      "loss": 0.1915,
      "loss/crossentropy": 2.461935520172119,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1494140625,
      "loss/idx": 0.0,
      "loss/logits": 0.042080432176589966,
      "step": 772
    },
    {
      "epoch": 0.006370686600130216,
      "grad_norm": 3.984375,
      "grad_norm_var": 0.6599812825520833,
      "learning_rate": 5e-05,
      "loss": 0.2646,
      "loss/crossentropy": 2.870908260345459,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2041015625,
      "loss/idx": 0.0,
      "loss/logits": 0.06047297269105911,
      "step": 773
    },
    {
      "epoch": 0.006378928109315378,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.6368242899576823,
      "learning_rate": 5e-05,
      "loss": 0.1692,
      "loss/crossentropy": 2.4187848567962646,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.03446546941995621,
      "step": 774
    },
    {
      "epoch": 0.00638716961850054,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.6639442443847656,
      "learning_rate": 5e-05,
      "loss": 0.2993,
      "loss/crossentropy": 2.4693610668182373,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.21484375,
      "loss/idx": 0.0,
      "loss/logits": 0.08449941873550415,
      "step": 775
    },
    {
      "epoch": 0.006395411127685702,
      "grad_norm": 1.7578125,
      "grad_norm_var": 0.68231201171875,
      "learning_rate": 5e-05,
      "loss": 0.1579,
      "loss/crossentropy": 2.635270833969116,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1259765625,
      "loss/idx": 0.0,
      "loss/logits": 0.031969744712114334,
      "step": 776
    },
    {
      "epoch": 0.0064036526368708635,
      "grad_norm": 1.203125,
      "grad_norm_var": 0.7755930582682292,
      "learning_rate": 5e-05,
      "loss": 0.1124,
      "loss/crossentropy": 1.4390558004379272,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0966796875,
      "loss/idx": 0.0,
      "loss/logits": 0.015761706978082657,
      "step": 777
    },
    {
      "epoch": 0.006411894146056025,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.8702369689941406,
      "learning_rate": 5e-05,
      "loss": 0.3235,
      "loss/crossentropy": 1.998376727104187,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.263671875,
      "loss/idx": 0.0,
      "loss/logits": 0.05982797592878342,
      "step": 778
    },
    {
      "epoch": 0.006420135655241188,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.813372548421224,
      "learning_rate": 5e-05,
      "loss": 0.2049,
      "loss/crossentropy": 1.550020694732666,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16015625,
      "loss/idx": 0.0,
      "loss/logits": 0.04472289979457855,
      "step": 779
    },
    {
      "epoch": 0.00642837716442635,
      "grad_norm": 1.2578125,
      "grad_norm_var": 0.90545654296875,
      "learning_rate": 5e-05,
      "loss": 0.1262,
      "loss/crossentropy": 2.6197104454040527,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.099609375,
      "loss/idx": 0.0,
      "loss/logits": 0.02659156545996666,
      "step": 780
    },
    {
      "epoch": 0.006436618673611512,
      "grad_norm": 2.25,
      "grad_norm_var": 0.8735911051432291,
      "learning_rate": 5e-05,
      "loss": 0.1781,
      "loss/crossentropy": 2.597325563430786,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1328125,
      "loss/idx": 0.0,
      "loss/logits": 0.045299261808395386,
      "step": 781
    },
    {
      "epoch": 0.006444860182796674,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.8603749593098958,
      "learning_rate": 5e-05,
      "loss": 0.1826,
      "loss/crossentropy": 1.9669688940048218,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1455078125,
      "loss/idx": 0.0,
      "loss/logits": 0.03709650784730911,
      "step": 782
    },
    {
      "epoch": 0.006453101691981836,
      "grad_norm": 1.703125,
      "grad_norm_var": 0.89061279296875,
      "learning_rate": 5e-05,
      "loss": 0.1355,
      "loss/crossentropy": 1.5600085258483887,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.111328125,
      "loss/idx": 0.0,
      "loss/logits": 0.02414374053478241,
      "step": 783
    },
    {
      "epoch": 0.006461343201166998,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.8287261962890625,
      "learning_rate": 5e-05,
      "loss": 0.2038,
      "loss/crossentropy": 2.052290678024292,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.169921875,
      "loss/idx": 0.0,
      "loss/logits": 0.033876098692417145,
      "step": 784
    },
    {
      "epoch": 0.0064695847103521595,
      "grad_norm": 1.78125,
      "grad_norm_var": 0.8521240234375,
      "learning_rate": 5e-05,
      "loss": 0.1581,
      "loss/crossentropy": 0.9798577427864075,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.023312989622354507,
      "step": 785
    },
    {
      "epoch": 0.006477826219537321,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.8504221598307292,
      "learning_rate": 5e-05,
      "loss": 0.147,
      "loss/crossentropy": 2.4323980808258057,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11865234375,
      "loss/idx": 0.0,
      "loss/logits": 0.028353385627269745,
      "step": 786
    },
    {
      "epoch": 0.006486067728722483,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.8854726155598959,
      "learning_rate": 5e-05,
      "loss": 0.2295,
      "loss/crossentropy": 2.9406378269195557,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.17578125,
      "loss/idx": 0.0,
      "loss/logits": 0.05376865714788437,
      "step": 787
    },
    {
      "epoch": 0.006494309237907646,
      "grad_norm": 1.71875,
      "grad_norm_var": 0.9057281494140625,
      "learning_rate": 5e-05,
      "loss": 0.1408,
      "loss/crossentropy": 2.3078272342681885,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.111328125,
      "loss/idx": 0.0,
      "loss/logits": 0.029444556683301926,
      "step": 788
    },
    {
      "epoch": 0.006502550747092808,
      "grad_norm": 1.125,
      "grad_norm_var": 0.81395263671875,
      "learning_rate": 5e-05,
      "loss": 0.1168,
      "loss/crossentropy": 1.5063586235046387,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.095703125,
      "loss/idx": 0.0,
      "loss/logits": 0.021064041182398796,
      "step": 789
    },
    {
      "epoch": 0.00651079225627797,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.8121571858723958,
      "learning_rate": 5e-05,
      "loss": 0.1659,
      "loss/crossentropy": 2.5850398540496826,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1337890625,
      "loss/idx": 0.0,
      "loss/logits": 0.03208760544657707,
      "step": 790
    },
    {
      "epoch": 0.006519033765463132,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.7996175130208333,
      "learning_rate": 5e-05,
      "loss": 0.1852,
      "loss/crossentropy": 1.5392999649047852,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.146484375,
      "loss/idx": 0.0,
      "loss/logits": 0.038750022649765015,
      "step": 791
    },
    {
      "epoch": 0.006527275274648294,
      "grad_norm": 1.7890625,
      "grad_norm_var": 0.79774169921875,
      "learning_rate": 5e-05,
      "loss": 0.1902,
      "loss/crossentropy": 2.854396343231201,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.146484375,
      "loss/idx": 0.0,
      "loss/logits": 0.043708011507987976,
      "step": 792
    },
    {
      "epoch": 0.0065355167838334555,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.8424235026041667,
      "learning_rate": 5e-05,
      "loss": 0.2264,
      "loss/crossentropy": 2.2643284797668457,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.18359375,
      "loss/idx": 0.0,
      "loss/logits": 0.04277587682008743,
      "step": 793
    },
    {
      "epoch": 0.006543758293018617,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.6642985026041667,
      "learning_rate": 5e-05,
      "loss": 0.161,
      "loss/crossentropy": 2.5523831844329834,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1279296875,
      "loss/idx": 0.0,
      "loss/logits": 0.0331122949719429,
      "step": 794
    },
    {
      "epoch": 0.006551999802203779,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.6581949869791667,
      "learning_rate": 5e-05,
      "loss": 0.177,
      "loss/crossentropy": 3.067322015762329,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1357421875,
      "loss/idx": 0.0,
      "loss/logits": 0.041216038167476654,
      "step": 795
    },
    {
      "epoch": 0.006560241311388941,
      "grad_norm": 1.171875,
      "grad_norm_var": 0.6709205627441406,
      "learning_rate": 5e-05,
      "loss": 0.1258,
      "loss/crossentropy": 1.477942943572998,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1044921875,
      "loss/idx": 0.0,
      "loss/logits": 0.021268734708428383,
      "step": 796
    },
    {
      "epoch": 0.006568482820574104,
      "grad_norm": 7.375,
      "grad_norm_var": 2.2628069559733075,
      "learning_rate": 5e-05,
      "loss": 0.2407,
      "loss/crossentropy": 2.4961607456207275,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.19140625,
      "loss/idx": 0.0,
      "loss/logits": 0.049283482134342194,
      "step": 797
    },
    {
      "epoch": 0.006576724329759266,
      "grad_norm": 2.828125,
      "grad_norm_var": 2.2427263895670575,
      "learning_rate": 5e-05,
      "loss": 0.2416,
      "loss/crossentropy": 2.435840129852295,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1826171875,
      "loss/idx": 0.0,
      "loss/logits": 0.05896880850195885,
      "step": 798
    },
    {
      "epoch": 0.006584965838944428,
      "grad_norm": 1.5703125,
      "grad_norm_var": 2.261286417643229,
      "learning_rate": 5e-05,
      "loss": 0.147,
      "loss/crossentropy": 1.4684247970581055,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.119140625,
      "loss/idx": 0.0,
      "loss/logits": 0.027891069650650024,
      "step": 799
    },
    {
      "epoch": 0.00659320734812959,
      "grad_norm": 1.296875,
      "grad_norm_var": 2.302298990885417,
      "learning_rate": 5e-05,
      "loss": 0.122,
      "loss/crossentropy": 1.3427636623382568,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1015625,
      "loss/idx": 0.0,
      "loss/logits": 0.020389681681990623,
      "step": 800
    },
    {
      "epoch": 0.0066014488573147515,
      "grad_norm": 2.46875,
      "grad_norm_var": 2.2629109700520833,
      "learning_rate": 5e-05,
      "loss": 0.0932,
      "loss/crossentropy": 0.27775296568870544,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.08642578125,
      "loss/idx": 0.0,
      "loss/logits": 0.006820976734161377,
      "step": 801
    },
    {
      "epoch": 0.006609690366499913,
      "grad_norm": 1.4140625,
      "grad_norm_var": 2.344496409098307,
      "learning_rate": 5e-05,
      "loss": 0.1262,
      "loss/crossentropy": 0.8798704147338867,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10791015625,
      "loss/idx": 0.0,
      "loss/logits": 0.018274936825037003,
      "step": 802
    },
    {
      "epoch": 0.006617931875685075,
      "grad_norm": 1.625,
      "grad_norm_var": 2.321738433837891,
      "learning_rate": 5e-05,
      "loss": 0.1389,
      "loss/crossentropy": 2.3500454425811768,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1103515625,
      "loss/idx": 0.0,
      "loss/logits": 0.02855532616376877,
      "step": 803
    },
    {
      "epoch": 0.006626173384870237,
      "grad_norm": 3.21875,
      "grad_norm_var": 2.325156402587891,
      "learning_rate": 5e-05,
      "loss": 0.2325,
      "loss/crossentropy": 2.58161997795105,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.177734375,
      "loss/idx": 0.0,
      "loss/logits": 0.05475683510303497,
      "step": 804
    },
    {
      "epoch": 0.006634414894055399,
      "grad_norm": 2.265625,
      "grad_norm_var": 2.1975786844889322,
      "learning_rate": 5e-05,
      "loss": 0.2116,
      "loss/crossentropy": 2.6687753200531006,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16015625,
      "loss/idx": 0.0,
      "loss/logits": 0.051458559930324554,
      "step": 805
    },
    {
      "epoch": 0.006642656403240561,
      "grad_norm": 3.078125,
      "grad_norm_var": 2.1956560770670572,
      "learning_rate": 5e-05,
      "loss": 0.1836,
      "loss/crossentropy": 2.341993808746338,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.150390625,
      "loss/idx": 0.0,
      "loss/logits": 0.033185191452503204,
      "step": 806
    },
    {
      "epoch": 0.006650897912425724,
      "grad_norm": 1.8515625,
      "grad_norm_var": 2.2197336832682293,
      "learning_rate": 5e-05,
      "loss": 0.1828,
      "loss/crossentropy": 2.465346336364746,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1416015625,
      "loss/idx": 0.0,
      "loss/logits": 0.041189346462488174,
      "step": 807
    },
    {
      "epoch": 0.006659139421610886,
      "grad_norm": 1.09375,
      "grad_norm_var": 2.3212013244628906,
      "learning_rate": 5e-05,
      "loss": 0.1117,
      "loss/crossentropy": 1.3634965419769287,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0927734375,
      "loss/idx": 0.0,
      "loss/logits": 0.01888800971210003,
      "step": 808
    },
    {
      "epoch": 0.0066673809307960475,
      "grad_norm": 1.046875,
      "grad_norm_var": 2.3466651916503904,
      "learning_rate": 5e-05,
      "loss": 0.095,
      "loss/crossentropy": 1.5679908990859985,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.08251953125,
      "loss/idx": 0.0,
      "loss/logits": 0.012483851984143257,
      "step": 809
    },
    {
      "epoch": 0.006675622439981209,
      "grad_norm": 2.046875,
      "grad_norm_var": 2.3237383524576822,
      "learning_rate": 5e-05,
      "loss": 0.1209,
      "loss/crossentropy": 1.3377238512039185,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10107421875,
      "loss/idx": 0.0,
      "loss/logits": 0.01983119174838066,
      "step": 810
    },
    {
      "epoch": 0.006683863949166371,
      "grad_norm": 2.875,
      "grad_norm_var": 2.3450294494628907,
      "learning_rate": 5e-05,
      "loss": 0.2099,
      "loss/crossentropy": 1.367640495300293,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1826171875,
      "loss/idx": 0.0,
      "loss/logits": 0.027279119938611984,
      "step": 811
    },
    {
      "epoch": 0.006692105458351533,
      "grad_norm": 2.453125,
      "grad_norm_var": 2.2503537495930988,
      "learning_rate": 5e-05,
      "loss": 0.2034,
      "loss/crossentropy": 2.2119548320770264,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.158203125,
      "loss/idx": 0.0,
      "loss/logits": 0.045244939625263214,
      "step": 812
    },
    {
      "epoch": 0.006700346967536695,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.4953386942545573,
      "learning_rate": 5e-05,
      "loss": 0.1415,
      "loss/crossentropy": 1.21071457862854,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12109375,
      "loss/idx": 0.0,
      "loss/logits": 0.020365629345178604,
      "step": 813
    },
    {
      "epoch": 0.006708588476721857,
      "grad_norm": 3.8125,
      "grad_norm_var": 0.6541460673014323,
      "learning_rate": 5e-05,
      "loss": 0.2487,
      "loss/crossentropy": 2.8512344360351562,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.193359375,
      "loss/idx": 0.0,
      "loss/logits": 0.055374931544065475,
      "step": 814
    },
    {
      "epoch": 0.006716829985907019,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.6461496988932292,
      "learning_rate": 5e-05,
      "loss": 0.1403,
      "loss/crossentropy": 0.623081624507904,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12158203125,
      "loss/idx": 0.0,
      "loss/logits": 0.01867399737238884,
      "step": 815
    },
    {
      "epoch": 0.006725071495092182,
      "grad_norm": 1.2421875,
      "grad_norm_var": 0.6529945373535156,
      "learning_rate": 5e-05,
      "loss": 0.1044,
      "loss/crossentropy": 0.35599735379219055,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0966796875,
      "loss/idx": 0.0,
      "loss/logits": 0.007739436347037554,
      "step": 816
    },
    {
      "epoch": 0.0067333130042773436,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.6491065979003906,
      "learning_rate": 5e-05,
      "loss": 0.1802,
      "loss/crossentropy": 2.3499081134796143,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.140625,
      "loss/idx": 0.0,
      "loss/logits": 0.039534226059913635,
      "step": 817
    },
    {
      "epoch": 0.0067415545134625054,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.6397379557291667,
      "learning_rate": 5e-05,
      "loss": 0.1885,
      "loss/crossentropy": 1.8850847482681274,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16015625,
      "loss/idx": 0.0,
      "loss/logits": 0.02836015075445175,
      "step": 818
    },
    {
      "epoch": 0.006749796022647667,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.6186106363932292,
      "learning_rate": 5e-05,
      "loss": 0.216,
      "loss/crossentropy": 1.4330132007598877,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.171875,
      "loss/idx": 0.0,
      "loss/logits": 0.04408085718750954,
      "step": 819
    },
    {
      "epoch": 0.006758037531832829,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.6280965169270833,
      "learning_rate": 5e-05,
      "loss": 0.2694,
      "loss/crossentropy": 1.9407634735107422,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.20703125,
      "loss/idx": 0.0,
      "loss/logits": 0.062371157109737396,
      "step": 820
    },
    {
      "epoch": 0.006766279041017991,
      "grad_norm": 1.53125,
      "grad_norm_var": 0.6700266520182292,
      "learning_rate": 5e-05,
      "loss": 0.1509,
      "loss/crossentropy": 1.891184687614441,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.032700151205062866,
      "step": 821
    },
    {
      "epoch": 0.006774520550203153,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.6554189046223958,
      "learning_rate": 5e-05,
      "loss": 0.212,
      "loss/crossentropy": 2.192823648452759,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1650390625,
      "loss/idx": 0.0,
      "loss/logits": 0.04695805162191391,
      "step": 822
    },
    {
      "epoch": 0.006782762059388315,
      "grad_norm": 1.2734375,
      "grad_norm_var": 0.7104085286458334,
      "learning_rate": 5e-05,
      "loss": 0.1329,
      "loss/crossentropy": 1.4268293380737305,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.109375,
      "loss/idx": 0.0,
      "loss/logits": 0.023486068472266197,
      "step": 823
    },
    {
      "epoch": 0.006791003568573477,
      "grad_norm": 5.03125,
      "grad_norm_var": 1.0682698567708333,
      "learning_rate": 5e-05,
      "loss": 0.4061,
      "loss/crossentropy": 2.2408840656280518,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.30078125,
      "loss/idx": 0.0,
      "loss/logits": 0.10528542101383209,
      "step": 824
    },
    {
      "epoch": 0.00679924507775864,
      "grad_norm": 1.6328125,
      "grad_norm_var": 0.9758969624837239,
      "learning_rate": 5e-05,
      "loss": 0.1375,
      "loss/crossentropy": 2.6388261318206787,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1083984375,
      "loss/idx": 0.0,
      "loss/logits": 0.029141269624233246,
      "step": 825
    },
    {
      "epoch": 0.0068074865869438015,
      "grad_norm": 1.328125,
      "grad_norm_var": 1.055492909749349,
      "learning_rate": 5e-05,
      "loss": 0.1284,
      "loss/crossentropy": 1.3783127069473267,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1103515625,
      "loss/idx": 0.0,
      "loss/logits": 0.01809128187596798,
      "step": 826
    },
    {
      "epoch": 0.006815728096128963,
      "grad_norm": 1.140625,
      "grad_norm_var": 1.155761464436849,
      "learning_rate": 5e-05,
      "loss": 0.1161,
      "loss/crossentropy": 1.5458354949951172,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0966796875,
      "loss/idx": 0.0,
      "loss/logits": 0.01938330940902233,
      "step": 827
    },
    {
      "epoch": 0.006823969605314125,
      "grad_norm": 3.234375,
      "grad_norm_var": 1.200774892171224,
      "learning_rate": 5e-05,
      "loss": 0.2329,
      "loss/crossentropy": 1.8702012300491333,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1875,
      "loss/idx": 0.0,
      "loss/logits": 0.045410916209220886,
      "step": 828
    },
    {
      "epoch": 0.006832211114499287,
      "grad_norm": 5.4375,
      "grad_norm_var": 1.7502540588378905,
      "learning_rate": 5e-05,
      "loss": 0.3512,
      "loss/crossentropy": 2.7246875762939453,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.28125,
      "loss/idx": 0.0,
      "loss/logits": 0.0699634999036789,
      "step": 829
    },
    {
      "epoch": 0.006840452623684449,
      "grad_norm": 2.265625,
      "grad_norm_var": 1.6584083557128906,
      "learning_rate": 5e-05,
      "loss": 0.1294,
      "loss/crossentropy": 1.506727695465088,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10791015625,
      "loss/idx": 0.0,
      "loss/logits": 0.021486353129148483,
      "step": 830
    },
    {
      "epoch": 0.006848694132869611,
      "grad_norm": 2.25,
      "grad_norm_var": 1.6624183654785156,
      "learning_rate": 5e-05,
      "loss": 0.1725,
      "loss/crossentropy": 2.507237434387207,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1357421875,
      "loss/idx": 0.0,
      "loss/logits": 0.03672666847705841,
      "step": 831
    },
    {
      "epoch": 0.006856935642054773,
      "grad_norm": 1.96875,
      "grad_norm_var": 1.57171630859375,
      "learning_rate": 5e-05,
      "loss": 0.1601,
      "loss/crossentropy": 1.883087158203125,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.13671875,
      "loss/idx": 0.0,
      "loss/logits": 0.023375539109110832,
      "step": 832
    },
    {
      "epoch": 0.006865177151239935,
      "grad_norm": 1.296875,
      "grad_norm_var": 1.6595937093098958,
      "learning_rate": 5e-05,
      "loss": 0.1151,
      "loss/crossentropy": 2.2904350757598877,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.09375,
      "loss/idx": 0.0,
      "loss/logits": 0.02137480303645134,
      "step": 833
    },
    {
      "epoch": 0.006873418660425097,
      "grad_norm": 1.546875,
      "grad_norm_var": 1.7013417561848958,
      "learning_rate": 5e-05,
      "loss": 0.1588,
      "loss/crossentropy": 2.104323625564575,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1279296875,
      "loss/idx": 0.0,
      "loss/logits": 0.03088623285293579,
      "step": 834
    },
    {
      "epoch": 0.006881660169610259,
      "grad_norm": 1.40625,
      "grad_norm_var": 1.7590087890625,
      "learning_rate": 5e-05,
      "loss": 0.1215,
      "loss/crossentropy": 1.4084559679031372,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.103515625,
      "loss/idx": 0.0,
      "loss/logits": 0.017994871363043785,
      "step": 835
    },
    {
      "epoch": 0.006889901678795421,
      "grad_norm": 1.5,
      "grad_norm_var": 1.7333892822265624,
      "learning_rate": 5e-05,
      "loss": 0.1111,
      "loss/crossentropy": 1.1881444454193115,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.095703125,
      "loss/idx": 0.0,
      "loss/logits": 0.01541186310350895,
      "step": 836
    },
    {
      "epoch": 0.006898143187980583,
      "grad_norm": 3.4375,
      "grad_norm_var": 1.7815419514973958,
      "learning_rate": 5e-05,
      "loss": 0.1738,
      "loss/crossentropy": 2.4373316764831543,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1357421875,
      "loss/idx": 0.0,
      "loss/logits": 0.038025081157684326,
      "step": 837
    },
    {
      "epoch": 0.006906384697165745,
      "grad_norm": 1.34375,
      "grad_norm_var": 1.81781005859375,
      "learning_rate": 5e-05,
      "loss": 0.1448,
      "loss/crossentropy": 2.4372975826263428,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.030569259077310562,
      "step": 838
    },
    {
      "epoch": 0.006914626206350907,
      "grad_norm": 2.171875,
      "grad_norm_var": 1.7505734761555989,
      "learning_rate": 5e-05,
      "loss": 0.1729,
      "loss/crossentropy": 1.551772117614746,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.14453125,
      "loss/idx": 0.0,
      "loss/logits": 0.028406476601958275,
      "step": 839
    },
    {
      "epoch": 0.006922867715536069,
      "grad_norm": 1.78125,
      "grad_norm_var": 1.2323931376139323,
      "learning_rate": 5e-05,
      "loss": 0.1473,
      "loss/crossentropy": 2.1337997913360596,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.033026814460754395,
      "step": 840
    },
    {
      "epoch": 0.006931109224721231,
      "grad_norm": 2.453125,
      "grad_norm_var": 1.2223795572916667,
      "learning_rate": 5e-05,
      "loss": 0.1839,
      "loss/crossentropy": 2.638575792312622,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1416015625,
      "loss/idx": 0.0,
      "loss/logits": 0.04230286926031113,
      "step": 841
    },
    {
      "epoch": 0.006939350733906393,
      "grad_norm": 2.390625,
      "grad_norm_var": 1.1750651041666667,
      "learning_rate": 5e-05,
      "loss": 0.2205,
      "loss/crossentropy": 2.267352342605591,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.169921875,
      "loss/idx": 0.0,
      "loss/logits": 0.05056004598736763,
      "step": 842
    },
    {
      "epoch": 0.0069475922430915545,
      "grad_norm": 4.34375,
      "grad_norm_var": 1.3525299072265624,
      "learning_rate": 5e-05,
      "loss": 0.3381,
      "loss/crossentropy": 2.6636710166931152,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.248046875,
      "loss/idx": 0.0,
      "loss/logits": 0.09001342952251434,
      "step": 843
    },
    {
      "epoch": 0.006955833752276717,
      "grad_norm": 3.109375,
      "grad_norm_var": 1.340046183268229,
      "learning_rate": 5e-05,
      "loss": 0.1769,
      "loss/crossentropy": 1.5471034049987793,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1484375,
      "loss/idx": 0.0,
      "loss/logits": 0.02849499136209488,
      "step": 844
    },
    {
      "epoch": 0.006964075261461879,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.698876953125,
      "learning_rate": 5e-05,
      "loss": 0.1365,
      "loss/crossentropy": 2.5193700790405273,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.107421875,
      "loss/idx": 0.0,
      "loss/logits": 0.029105795547366142,
      "step": 845
    },
    {
      "epoch": 0.006972316770647041,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.6989491780598959,
      "learning_rate": 5e-05,
      "loss": 0.1387,
      "loss/crossentropy": 1.5674251317977905,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11376953125,
      "loss/idx": 0.0,
      "loss/logits": 0.024912243708968163,
      "step": 846
    },
    {
      "epoch": 0.006980558279832203,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.7668935139973958,
      "learning_rate": 5e-05,
      "loss": 0.1924,
      "loss/crossentropy": 1.3732967376708984,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15625,
      "loss/idx": 0.0,
      "loss/logits": 0.036177463829517365,
      "step": 847
    },
    {
      "epoch": 0.006988799789017365,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.9473704020182292,
      "learning_rate": 5e-05,
      "loss": 0.2466,
      "loss/crossentropy": 1.4407217502593994,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.19921875,
      "loss/idx": 0.0,
      "loss/logits": 0.04741185903549194,
      "step": 848
    },
    {
      "epoch": 0.006997041298202527,
      "grad_norm": 1.5078125,
      "grad_norm_var": 0.9181536356608073,
      "learning_rate": 5e-05,
      "loss": 0.1338,
      "loss/crossentropy": 2.713207721710205,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1064453125,
      "loss/idx": 0.0,
      "loss/logits": 0.027391444891691208,
      "step": 849
    },
    {
      "epoch": 0.007005282807387689,
      "grad_norm": 2.5,
      "grad_norm_var": 0.8604448954264323,
      "learning_rate": 5e-05,
      "loss": 0.2414,
      "loss/crossentropy": 1.8647682666778564,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.203125,
      "loss/idx": 0.0,
      "loss/logits": 0.038255929946899414,
      "step": 850
    },
    {
      "epoch": 0.0070135243165728505,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.8444435119628906,
      "learning_rate": 5e-05,
      "loss": 0.1953,
      "loss/crossentropy": 3.0968027114868164,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1513671875,
      "loss/idx": 0.0,
      "loss/logits": 0.04395551607012749,
      "step": 851
    },
    {
      "epoch": 0.0070217658257580124,
      "grad_norm": 1.1015625,
      "grad_norm_var": 0.9152984619140625,
      "learning_rate": 5e-05,
      "loss": 0.1179,
      "loss/crossentropy": 1.364888072013855,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.09765625,
      "loss/idx": 0.0,
      "loss/logits": 0.020214572548866272,
      "step": 852
    },
    {
      "epoch": 0.007030007334943175,
      "grad_norm": 4.03125,
      "grad_norm_var": 1.0018870035807292,
      "learning_rate": 5e-05,
      "loss": 0.2262,
      "loss/crossentropy": 1.5738481283187866,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1923828125,
      "loss/idx": 0.0,
      "loss/logits": 0.03383617848157883,
      "step": 853
    },
    {
      "epoch": 0.007038248844128337,
      "grad_norm": 2.375,
      "grad_norm_var": 0.8874827067057292,
      "learning_rate": 5e-05,
      "loss": 0.147,
      "loss/crossentropy": 1.7854039669036865,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.125,
      "loss/idx": 0.0,
      "loss/logits": 0.02201111428439617,
      "step": 854
    },
    {
      "epoch": 0.007046490353313499,
      "grad_norm": 1.078125,
      "grad_norm_var": 1.0427154541015624,
      "learning_rate": 5e-05,
      "loss": 0.1042,
      "loss/crossentropy": 0.8679842352867126,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0908203125,
      "loss/idx": 0.0,
      "loss/logits": 0.013427493162453175,
      "step": 855
    },
    {
      "epoch": 0.007054731862498661,
      "grad_norm": 2.0,
      "grad_norm_var": 1.020213826497396,
      "learning_rate": 5e-05,
      "loss": 0.1693,
      "loss/crossentropy": 1.9278184175491333,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1328125,
      "loss/idx": 0.0,
      "loss/logits": 0.03644675761461258,
      "step": 856
    },
    {
      "epoch": 0.007062973371683823,
      "grad_norm": 2.265625,
      "grad_norm_var": 1.0278065999348958,
      "learning_rate": 5e-05,
      "loss": 0.1806,
      "loss/crossentropy": 1.801297664642334,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.03802645206451416,
      "step": 857
    },
    {
      "epoch": 0.007071214880868985,
      "grad_norm": 2.390625,
      "grad_norm_var": 1.0278065999348958,
      "learning_rate": 5e-05,
      "loss": 0.1861,
      "loss/crossentropy": 2.6730916500091553,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.04350658878684044,
      "step": 858
    },
    {
      "epoch": 0.0070794563900541466,
      "grad_norm": 1.625,
      "grad_norm_var": 0.8784169514973958,
      "learning_rate": 5e-05,
      "loss": 0.1474,
      "loss/crossentropy": 2.8773488998413086,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.033148590475320816,
      "step": 859
    },
    {
      "epoch": 0.0070876978992393085,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.8555898030598958,
      "learning_rate": 5e-05,
      "loss": 0.1824,
      "loss/crossentropy": 2.271367311477661,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1435546875,
      "loss/idx": 0.0,
      "loss/logits": 0.03879944607615471,
      "step": 860
    },
    {
      "epoch": 0.00709593940842447,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.8619374593098958,
      "learning_rate": 5e-05,
      "loss": 0.1606,
      "loss/crossentropy": 2.637540340423584,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.126953125,
      "loss/idx": 0.0,
      "loss/logits": 0.033611979335546494,
      "step": 861
    },
    {
      "epoch": 0.007104180917609632,
      "grad_norm": 1.375,
      "grad_norm_var": 0.9275461832682291,
      "learning_rate": 5e-05,
      "loss": 0.1324,
      "loss/crossentropy": 1.5838335752487183,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.109375,
      "loss/idx": 0.0,
      "loss/logits": 0.02299325168132782,
      "step": 862
    },
    {
      "epoch": 0.007112422426794795,
      "grad_norm": 1.1484375,
      "grad_norm_var": 0.9449724833170573,
      "learning_rate": 5e-05,
      "loss": 0.1209,
      "loss/crossentropy": 1.4155738353729248,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1015625,
      "loss/idx": 0.0,
      "loss/logits": 0.019340351223945618,
      "step": 863
    },
    {
      "epoch": 0.007120663935979957,
      "grad_norm": 29.625,
      "grad_norm_var": 48.10079523722331,
      "learning_rate": 5e-05,
      "loss": 0.374,
      "loss/crossentropy": 2.0414719581604004,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.32421875,
      "loss/idx": 0.0,
      "loss/logits": 0.049798041582107544,
      "step": 864
    },
    {
      "epoch": 0.007128905445165119,
      "grad_norm": 1.3515625,
      "grad_norm_var": 48.15022354125976,
      "learning_rate": 5e-05,
      "loss": 0.1175,
      "loss/crossentropy": 1.4641659259796143,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0986328125,
      "loss/idx": 0.0,
      "loss/logits": 0.018840216100215912,
      "step": 865
    },
    {
      "epoch": 0.007137146954350281,
      "grad_norm": 1.2890625,
      "grad_norm_var": 48.451341756184895,
      "learning_rate": 5e-05,
      "loss": 0.1129,
      "loss/crossentropy": 0.8852246403694153,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.09619140625,
      "loss/idx": 0.0,
      "loss/logits": 0.01674000360071659,
      "step": 866
    },
    {
      "epoch": 0.007145388463535443,
      "grad_norm": 1.4296875,
      "grad_norm_var": 48.78075129191081,
      "learning_rate": 5e-05,
      "loss": 0.1627,
      "loss/crossentropy": 2.618283748626709,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1240234375,
      "loss/idx": 0.0,
      "loss/logits": 0.03862760215997696,
      "step": 867
    },
    {
      "epoch": 0.0071536299727206045,
      "grad_norm": 2.390625,
      "grad_norm_var": 48.45802408854167,
      "learning_rate": 5e-05,
      "loss": 0.1756,
      "loss/crossentropy": 1.5870869159698486,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15234375,
      "loss/idx": 0.0,
      "loss/logits": 0.0232391357421875,
      "step": 868
    },
    {
      "epoch": 0.007161871481905766,
      "grad_norm": 2.375,
      "grad_norm_var": 48.54838460286458,
      "learning_rate": 5e-05,
      "loss": 0.1535,
      "loss/crossentropy": 1.9420498609542847,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.03145188093185425,
      "step": 869
    },
    {
      "epoch": 0.007170112991090928,
      "grad_norm": 1.375,
      "grad_norm_var": 48.76895751953125,
      "learning_rate": 5e-05,
      "loss": 0.1167,
      "loss/crossentropy": 1.6243377923965454,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0947265625,
      "loss/idx": 0.0,
      "loss/logits": 0.021999340504407883,
      "step": 870
    },
    {
      "epoch": 0.00717835450027609,
      "grad_norm": 1.6484375,
      "grad_norm_var": 48.60527114868164,
      "learning_rate": 5e-05,
      "loss": 0.1465,
      "loss/crossentropy": 0.5207220911979675,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.130859375,
      "loss/idx": 0.0,
      "loss/logits": 0.015599271282553673,
      "step": 871
    },
    {
      "epoch": 0.007186596009461253,
      "grad_norm": 1.6015625,
      "grad_norm_var": 48.69667053222656,
      "learning_rate": 5e-05,
      "loss": 0.1485,
      "loss/crossentropy": 2.410845994949341,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.030334439128637314,
      "step": 872
    },
    {
      "epoch": 0.007194837518646415,
      "grad_norm": 2.46875,
      "grad_norm_var": 48.66558024088542,
      "learning_rate": 5e-05,
      "loss": 0.1478,
      "loss/crossentropy": 1.4278953075408936,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12890625,
      "loss/idx": 0.0,
      "loss/logits": 0.01892838627099991,
      "step": 873
    },
    {
      "epoch": 0.007203079027831577,
      "grad_norm": 2.015625,
      "grad_norm_var": 48.73091227213542,
      "learning_rate": 5e-05,
      "loss": 0.1412,
      "loss/crossentropy": 2.3847408294677734,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.111328125,
      "loss/idx": 0.0,
      "loss/logits": 0.029860273003578186,
      "step": 874
    },
    {
      "epoch": 0.007211320537016739,
      "grad_norm": 2.4375,
      "grad_norm_var": 48.56925862630208,
      "learning_rate": 5e-05,
      "loss": 0.2361,
      "loss/crossentropy": 2.355764627456665,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.185546875,
      "loss/idx": 0.0,
      "loss/logits": 0.05050516501069069,
      "step": 875
    },
    {
      "epoch": 0.0072195620462019005,
      "grad_norm": 1.6875,
      "grad_norm_var": 48.67285054524739,
      "learning_rate": 5e-05,
      "loss": 0.2005,
      "loss/crossentropy": 2.284627676010132,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.158203125,
      "loss/idx": 0.0,
      "loss/logits": 0.04234454780817032,
      "step": 876
    },
    {
      "epoch": 0.007227803555387062,
      "grad_norm": 3.296875,
      "grad_norm_var": 48.53161519368489,
      "learning_rate": 5e-05,
      "loss": 0.2251,
      "loss/crossentropy": 2.510892152786255,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.18359375,
      "loss/idx": 0.0,
      "loss/logits": 0.041470736265182495,
      "step": 877
    },
    {
      "epoch": 0.007236045064572224,
      "grad_norm": 1.90625,
      "grad_norm_var": 48.39202372233073,
      "learning_rate": 5e-05,
      "loss": 0.1637,
      "loss/crossentropy": 1.8948522806167603,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1328125,
      "loss/idx": 0.0,
      "loss/logits": 0.030879024416208267,
      "step": 878
    },
    {
      "epoch": 0.007244286573757386,
      "grad_norm": 2.078125,
      "grad_norm_var": 48.13868993123372,
      "learning_rate": 5e-05,
      "loss": 0.1593,
      "loss/crossentropy": 1.3858805894851685,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1259765625,
      "loss/idx": 0.0,
      "loss/logits": 0.03331441059708595,
      "step": 879
    },
    {
      "epoch": 0.007252528082942548,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.29590021769205727,
      "learning_rate": 5e-05,
      "loss": 0.1446,
      "loss/crossentropy": 1.4740588665008545,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.02642858400940895,
      "step": 880
    },
    {
      "epoch": 0.007260769592127711,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.3551259358723958,
      "learning_rate": 5e-05,
      "loss": 0.1482,
      "loss/crossentropy": 1.0553547143936157,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12890625,
      "loss/idx": 0.0,
      "loss/logits": 0.01929531991481781,
      "step": 881
    },
    {
      "epoch": 0.007269011101312873,
      "grad_norm": 2.375,
      "grad_norm_var": 0.31359024047851564,
      "learning_rate": 5e-05,
      "loss": 0.1372,
      "loss/crossentropy": 1.9523429870605469,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.109375,
      "loss/idx": 0.0,
      "loss/logits": 0.027855783700942993,
      "step": 882
    },
    {
      "epoch": 0.007277252610498035,
      "grad_norm": 1.390625,
      "grad_norm_var": 0.3174519856770833,
      "learning_rate": 5e-05,
      "loss": 0.0988,
      "loss/crossentropy": 0.5503354072570801,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0888671875,
      "loss/idx": 0.0,
      "loss/logits": 0.009944621473550797,
      "step": 883
    },
    {
      "epoch": 0.0072854941196831965,
      "grad_norm": 1.2578125,
      "grad_norm_var": 0.36137059529622395,
      "learning_rate": 5e-05,
      "loss": 0.1208,
      "loss/crossentropy": 1.7299476861953735,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10009765625,
      "loss/idx": 0.0,
      "loss/logits": 0.020662667229771614,
      "step": 884
    },
    {
      "epoch": 0.007293735628868358,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.5144365946451823,
      "learning_rate": 5e-05,
      "loss": 0.1408,
      "loss/crossentropy": 1.2476385831832886,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.115234375,
      "loss/idx": 0.0,
      "loss/logits": 0.025581957772374153,
      "step": 885
    },
    {
      "epoch": 0.00730197713805352,
      "grad_norm": 1.078125,
      "grad_norm_var": 0.5510047912597656,
      "learning_rate": 5e-05,
      "loss": 0.103,
      "loss/crossentropy": 1.68153715133667,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0849609375,
      "loss/idx": 0.0,
      "loss/logits": 0.018041210249066353,
      "step": 886
    },
    {
      "epoch": 0.007310218647238682,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.5380849202473958,
      "learning_rate": 5e-05,
      "loss": 0.1718,
      "loss/crossentropy": 2.690136671066284,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1318359375,
      "loss/idx": 0.0,
      "loss/logits": 0.03993324190378189,
      "step": 887
    },
    {
      "epoch": 0.007318460156423844,
      "grad_norm": 1.59375,
      "grad_norm_var": 0.5387021382649739,
      "learning_rate": 5e-05,
      "loss": 0.1553,
      "loss/crossentropy": 1.3326576948165894,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1240234375,
      "loss/idx": 0.0,
      "loss/logits": 0.03129717335104942,
      "step": 888
    },
    {
      "epoch": 0.007326701665609006,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.5334144592285156,
      "learning_rate": 5e-05,
      "loss": 0.1613,
      "loss/crossentropy": 2.293314218521118,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12890625,
      "loss/idx": 0.0,
      "loss/logits": 0.03244052827358246,
      "step": 889
    },
    {
      "epoch": 0.007334943174794169,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.5329119364420573,
      "learning_rate": 5e-05,
      "loss": 0.1668,
      "loss/crossentropy": 2.6757304668426514,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12890625,
      "loss/idx": 0.0,
      "loss/logits": 0.03789503872394562,
      "step": 890
    },
    {
      "epoch": 0.007343184683979331,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.5289955139160156,
      "learning_rate": 5e-05,
      "loss": 0.172,
      "loss/crossentropy": 1.9997798204421997,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.03719984367489815,
      "step": 891
    },
    {
      "epoch": 0.0073514261931644925,
      "grad_norm": 1.5703125,
      "grad_norm_var": 0.5374755859375,
      "learning_rate": 5e-05,
      "loss": 0.1209,
      "loss/crossentropy": 0.4429371654987335,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1015625,
      "loss/idx": 0.0,
      "loss/logits": 0.019379278644919395,
      "step": 892
    },
    {
      "epoch": 0.007359667702349654,
      "grad_norm": 1.3515625,
      "grad_norm_var": 0.48118057250976565,
      "learning_rate": 5e-05,
      "loss": 0.0994,
      "loss/crossentropy": 0.2325073629617691,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.09375,
      "loss/idx": 0.0,
      "loss/logits": 0.005671404767781496,
      "step": 893
    },
    {
      "epoch": 0.007367909211534816,
      "grad_norm": 1.328125,
      "grad_norm_var": 0.512872060139974,
      "learning_rate": 5e-05,
      "loss": 0.1444,
      "loss/crossentropy": 2.507219076156616,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.109375,
      "loss/idx": 0.0,
      "loss/logits": 0.035071056336164474,
      "step": 894
    },
    {
      "epoch": 0.007376150720719978,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.5158119201660156,
      "learning_rate": 5e-05,
      "loss": 0.1701,
      "loss/crossentropy": 2.556119918823242,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1328125,
      "loss/idx": 0.0,
      "loss/logits": 0.037296053022146225,
      "step": 895
    },
    {
      "epoch": 0.00738439222990514,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.5198951721191406,
      "learning_rate": 5e-05,
      "loss": 0.2003,
      "loss/crossentropy": 2.8151919841766357,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15234375,
      "loss/idx": 0.0,
      "loss/logits": 0.04793722182512283,
      "step": 896
    },
    {
      "epoch": 0.007392633739090302,
      "grad_norm": 1.9296875,
      "grad_norm_var": 0.4244537353515625,
      "learning_rate": 5e-05,
      "loss": 0.2205,
      "loss/crossentropy": 2.4031951427459717,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16796875,
      "loss/idx": 0.0,
      "loss/logits": 0.05256333947181702,
      "step": 897
    },
    {
      "epoch": 0.007400875248275464,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.4171295166015625,
      "learning_rate": 5e-05,
      "loss": 0.1722,
      "loss/crossentropy": 3.179619312286377,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1328125,
      "loss/idx": 0.0,
      "loss/logits": 0.0393570140004158,
      "step": 898
    },
    {
      "epoch": 0.007409116757460626,
      "grad_norm": 4.625,
      "grad_norm_var": 0.83385009765625,
      "learning_rate": 5e-05,
      "loss": 0.2282,
      "loss/crossentropy": 1.429465651512146,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.19921875,
      "loss/idx": 0.0,
      "loss/logits": 0.028934892266988754,
      "step": 899
    },
    {
      "epoch": 0.0074173582666457885,
      "grad_norm": 1.515625,
      "grad_norm_var": 0.8075904846191406,
      "learning_rate": 5e-05,
      "loss": 0.1484,
      "loss/crossentropy": 1.4451292753219604,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1240234375,
      "loss/idx": 0.0,
      "loss/logits": 0.024369023740291595,
      "step": 900
    },
    {
      "epoch": 0.0074255997758309504,
      "grad_norm": 103.5,
      "grad_norm_var": 643.7922401428223,
      "learning_rate": 5e-05,
      "loss": 0.5508,
      "loss/crossentropy": 0.928047239780426,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.50390625,
      "loss/idx": 0.0,
      "loss/logits": 0.04687977582216263,
      "step": 901
    },
    {
      "epoch": 0.007433841285016112,
      "grad_norm": 1.0078125,
      "grad_norm_var": 643.861181640625,
      "learning_rate": 5e-05,
      "loss": 0.1275,
      "loss/crossentropy": 2.235487461090088,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1044921875,
      "loss/idx": 0.0,
      "loss/logits": 0.022974800318479538,
      "step": 902
    },
    {
      "epoch": 0.007442082794201274,
      "grad_norm": 2.421875,
      "grad_norm_var": 643.8736073811849,
      "learning_rate": 5e-05,
      "loss": 0.1372,
      "loss/crossentropy": 1.5220298767089844,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11328125,
      "loss/idx": 0.0,
      "loss/logits": 0.02395622618496418,
      "step": 903
    },
    {
      "epoch": 0.007450324303386436,
      "grad_norm": 2.34375,
      "grad_norm_var": 643.2287831624349,
      "learning_rate": 5e-05,
      "loss": 0.1307,
      "loss/crossentropy": 1.4191033840179443,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10595703125,
      "loss/idx": 0.0,
      "loss/logits": 0.024734167382121086,
      "step": 904
    },
    {
      "epoch": 0.007458565812571598,
      "grad_norm": 5.125,
      "grad_norm_var": 641.2515462239584,
      "learning_rate": 5e-05,
      "loss": 0.3705,
      "loss/crossentropy": 1.2650396823883057,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.26953125,
      "loss/idx": 0.0,
      "loss/logits": 0.10096491873264313,
      "step": 905
    },
    {
      "epoch": 0.00746680732175676,
      "grad_norm": 3.234375,
      "grad_norm_var": 640.5282704671224,
      "learning_rate": 5e-05,
      "loss": 0.1926,
      "loss/crossentropy": 1.6492811441421509,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.154296875,
      "loss/idx": 0.0,
      "loss/logits": 0.0383470356464386,
      "step": 906
    },
    {
      "epoch": 0.007475048830941922,
      "grad_norm": 2.671875,
      "grad_norm_var": 640.190786743164,
      "learning_rate": 5e-05,
      "loss": 0.1486,
      "loss/crossentropy": 1.6101174354553223,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12353515625,
      "loss/idx": 0.0,
      "loss/logits": 0.02505500242114067,
      "step": 907
    },
    {
      "epoch": 0.007483290340127084,
      "grad_norm": 3.21875,
      "grad_norm_var": 638.7909563700358,
      "learning_rate": 5e-05,
      "loss": 0.1805,
      "loss/crossentropy": 1.6961467266082764,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.150390625,
      "loss/idx": 0.0,
      "loss/logits": 0.030135734006762505,
      "step": 908
    },
    {
      "epoch": 0.0074915318493122465,
      "grad_norm": 3.28125,
      "grad_norm_var": 637.1034220377604,
      "learning_rate": 5e-05,
      "loss": 0.2268,
      "loss/crossentropy": 2.749086618423462,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1787109375,
      "loss/idx": 0.0,
      "loss/logits": 0.048118021339178085,
      "step": 909
    },
    {
      "epoch": 0.007499773358497408,
      "grad_norm": 1.3515625,
      "grad_norm_var": 637.0796831766764,
      "learning_rate": 5e-05,
      "loss": 0.1485,
      "loss/crossentropy": 1.4836238622665405,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.02646125853061676,
      "step": 910
    },
    {
      "epoch": 0.00750801486768257,
      "grad_norm": 2.21875,
      "grad_norm_var": 637.0936622619629,
      "learning_rate": 5e-05,
      "loss": 0.16,
      "loss/crossentropy": 1.5685328245162964,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.126953125,
      "loss/idx": 0.0,
      "loss/logits": 0.033031269907951355,
      "step": 911
    },
    {
      "epoch": 0.007516256376867732,
      "grad_norm": 1.7890625,
      "grad_norm_var": 637.5730539957682,
      "learning_rate": 5e-05,
      "loss": 0.1701,
      "loss/crossentropy": 0.7678622007369995,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1435546875,
      "loss/idx": 0.0,
      "loss/logits": 0.02650710754096508,
      "step": 912
    },
    {
      "epoch": 0.007524497886052894,
      "grad_norm": 2.5625,
      "grad_norm_var": 637.0096819559733,
      "learning_rate": 5e-05,
      "loss": 0.1833,
      "loss/crossentropy": 2.773200273513794,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.138671875,
      "loss/idx": 0.0,
      "loss/logits": 0.04464181140065193,
      "step": 913
    },
    {
      "epoch": 0.007532739395238056,
      "grad_norm": 1.703125,
      "grad_norm_var": 637.4885821024577,
      "learning_rate": 5e-05,
      "loss": 0.1809,
      "loss/crossentropy": 2.4580299854278564,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.138671875,
      "loss/idx": 0.0,
      "loss/logits": 0.04220724105834961,
      "step": 914
    },
    {
      "epoch": 0.007540980904423218,
      "grad_norm": 1.6796875,
      "grad_norm_var": 639.71376953125,
      "learning_rate": 5e-05,
      "loss": 0.1522,
      "loss/crossentropy": 2.1130568981170654,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1201171875,
      "loss/idx": 0.0,
      "loss/logits": 0.03203842043876648,
      "step": 915
    },
    {
      "epoch": 0.00754922241360838,
      "grad_norm": 1.84375,
      "grad_norm_var": 639.4050201416015,
      "learning_rate": 5e-05,
      "loss": 0.1293,
      "loss/crossentropy": 1.8496575355529785,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.103515625,
      "loss/idx": 0.0,
      "loss/logits": 0.025790153071284294,
      "step": 916
    },
    {
      "epoch": 0.007557463922793542,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.9873331705729167,
      "learning_rate": 5e-05,
      "loss": 0.1361,
      "loss/crossentropy": 1.5800864696502686,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1123046875,
      "loss/idx": 0.0,
      "loss/logits": 0.023767339065670967,
      "step": 917
    },
    {
      "epoch": 0.007565705431978704,
      "grad_norm": 1.8359375,
      "grad_norm_var": 0.8686676025390625,
      "learning_rate": 5e-05,
      "loss": 0.1117,
      "loss/crossentropy": 1.1425081491470337,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.09375,
      "loss/idx": 0.0,
      "loss/logits": 0.01797986589372158,
      "step": 918
    },
    {
      "epoch": 0.007573946941163866,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.9367177327473958,
      "learning_rate": 5e-05,
      "loss": 0.1796,
      "loss/crossentropy": 2.826726198196411,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.036978572607040405,
      "step": 919
    },
    {
      "epoch": 0.007582188450349028,
      "grad_norm": 1.8671875,
      "grad_norm_var": 0.9668596903483073,
      "learning_rate": 5e-05,
      "loss": 0.1869,
      "loss/crossentropy": 2.1164968013763428,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1484375,
      "loss/idx": 0.0,
      "loss/logits": 0.03847302123904228,
      "step": 920
    },
    {
      "epoch": 0.00759042995953419,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.753808339436849,
      "learning_rate": 5e-05,
      "loss": 0.1586,
      "loss/crossentropy": 2.5811195373535156,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1240234375,
      "loss/idx": 0.0,
      "loss/logits": 0.034622643142938614,
      "step": 921
    },
    {
      "epoch": 0.007598671468719352,
      "grad_norm": 1.65625,
      "grad_norm_var": 0.7591509501139323,
      "learning_rate": 5e-05,
      "loss": 0.1544,
      "loss/crossentropy": 2.408280611038208,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.036218732595443726,
      "step": 922
    },
    {
      "epoch": 0.007606912977904514,
      "grad_norm": 1.78125,
      "grad_norm_var": 0.7789812723795573,
      "learning_rate": 5e-05,
      "loss": 0.1502,
      "loss/crossentropy": 1.7369745969772339,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.123046875,
      "loss/idx": 0.0,
      "loss/logits": 0.027189793065190315,
      "step": 923
    },
    {
      "epoch": 0.007615154487089676,
      "grad_norm": 4.75,
      "grad_norm_var": 1.0996864318847657,
      "learning_rate": 5e-05,
      "loss": 0.4286,
      "loss/crossentropy": 2.7182440757751465,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.3671875,
      "loss/idx": 0.0,
      "loss/logits": 0.061443451792001724,
      "step": 924
    },
    {
      "epoch": 0.007623395996274838,
      "grad_norm": 1.671875,
      "grad_norm_var": 1.0856463114420574,
      "learning_rate": 5e-05,
      "loss": 0.1476,
      "loss/crossentropy": 2.5658042430877686,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1171875,
      "loss/idx": 0.0,
      "loss/logits": 0.030445091426372528,
      "step": 925
    },
    {
      "epoch": 0.0076316375054599995,
      "grad_norm": 1.578125,
      "grad_norm_var": 1.0583658854166667,
      "learning_rate": 5e-05,
      "loss": 0.1394,
      "loss/crossentropy": 1.2689893245697021,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11279296875,
      "loss/idx": 0.0,
      "loss/logits": 0.02664242871105671,
      "step": 926
    },
    {
      "epoch": 0.007639879014645161,
      "grad_norm": 1.8125,
      "grad_norm_var": 1.0771443684895834,
      "learning_rate": 5e-05,
      "loss": 0.1498,
      "loss/crossentropy": 2.381871223449707,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.119140625,
      "loss/idx": 0.0,
      "loss/logits": 0.03070569597184658,
      "step": 927
    },
    {
      "epoch": 0.007648120523830324,
      "grad_norm": 2.25,
      "grad_norm_var": 1.0559730529785156,
      "learning_rate": 5e-05,
      "loss": 0.1529,
      "loss/crossentropy": 2.887047529220581,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11962890625,
      "loss/idx": 0.0,
      "loss/logits": 0.033232178539037704,
      "step": 928
    },
    {
      "epoch": 0.007656362033015486,
      "grad_norm": 11.875,
      "grad_norm_var": 6.704707590738932,
      "learning_rate": 5e-05,
      "loss": 0.8791,
      "loss/crossentropy": 1.3170801401138306,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.734375,
      "loss/idx": 0.0,
      "loss/logits": 0.14475420117378235,
      "step": 929
    },
    {
      "epoch": 0.007664603542200648,
      "grad_norm": 1.6484375,
      "grad_norm_var": 6.7140625,
      "learning_rate": 5e-05,
      "loss": 0.127,
      "loss/crossentropy": 1.6071490049362183,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10107421875,
      "loss/idx": 0.0,
      "loss/logits": 0.025960184633731842,
      "step": 930
    },
    {
      "epoch": 0.00767284505138581,
      "grad_norm": 1.8984375,
      "grad_norm_var": 6.67979736328125,
      "learning_rate": 5e-05,
      "loss": 0.1926,
      "loss/crossentropy": 2.840394973754883,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1455078125,
      "loss/idx": 0.0,
      "loss/logits": 0.047091417014598846,
      "step": 931
    },
    {
      "epoch": 0.007681086560570972,
      "grad_norm": 1.9921875,
      "grad_norm_var": 6.658870188395182,
      "learning_rate": 5e-05,
      "loss": 0.155,
      "loss/crossentropy": 1.9618257284164429,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1240234375,
      "loss/idx": 0.0,
      "loss/logits": 0.03101358562707901,
      "step": 932
    },
    {
      "epoch": 0.007689328069756134,
      "grad_norm": 1.6953125,
      "grad_norm_var": 6.760285441080729,
      "learning_rate": 5e-05,
      "loss": 0.1729,
      "loss/crossentropy": 0.5429065823554993,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1552734375,
      "loss/idx": 0.0,
      "loss/logits": 0.017611898481845856,
      "step": 933
    },
    {
      "epoch": 0.0076975695789412955,
      "grad_norm": 1.953125,
      "grad_norm_var": 6.744618479410807,
      "learning_rate": 5e-05,
      "loss": 0.1526,
      "loss/crossentropy": 2.004976749420166,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12255859375,
      "loss/idx": 0.0,
      "loss/logits": 0.030033178627490997,
      "step": 934
    },
    {
      "epoch": 0.007705811088126457,
      "grad_norm": 1.3046875,
      "grad_norm_var": 6.8623606363932295,
      "learning_rate": 5e-05,
      "loss": 0.106,
      "loss/crossentropy": 1.3220717906951904,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.08984375,
      "loss/idx": 0.0,
      "loss/logits": 0.01619834452867508,
      "step": 935
    },
    {
      "epoch": 0.007714052597311619,
      "grad_norm": 1.46875,
      "grad_norm_var": 6.919648996988932,
      "learning_rate": 5e-05,
      "loss": 0.1283,
      "loss/crossentropy": 1.6176024675369263,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1044921875,
      "loss/idx": 0.0,
      "loss/logits": 0.023826373741030693,
      "step": 936
    },
    {
      "epoch": 0.007722294106496782,
      "grad_norm": 2.296875,
      "grad_norm_var": 6.727388254801432,
      "learning_rate": 5e-05,
      "loss": 0.1905,
      "loss/crossentropy": 2.7859342098236084,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.14453125,
      "loss/idx": 0.0,
      "loss/logits": 0.04592683166265488,
      "step": 937
    },
    {
      "epoch": 0.007730535615681944,
      "grad_norm": 2.28125,
      "grad_norm_var": 6.672985585530599,
      "learning_rate": 5e-05,
      "loss": 0.1824,
      "loss/crossentropy": 2.764125108718872,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1416015625,
      "loss/idx": 0.0,
      "loss/logits": 0.04075000435113907,
      "step": 938
    },
    {
      "epoch": 0.007738777124867106,
      "grad_norm": 1.8203125,
      "grad_norm_var": 6.668602498372396,
      "learning_rate": 5e-05,
      "loss": 0.1234,
      "loss/crossentropy": 2.6147968769073486,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.099609375,
      "loss/idx": 0.0,
      "loss/logits": 0.023791346698999405,
      "step": 939
    },
    {
      "epoch": 0.007747018634052268,
      "grad_norm": 1.8828125,
      "grad_norm_var": 6.377123769124349,
      "learning_rate": 5e-05,
      "loss": 0.155,
      "loss/crossentropy": 1.4540939331054688,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.125,
      "loss/idx": 0.0,
      "loss/logits": 0.029985029250383377,
      "step": 940
    },
    {
      "epoch": 0.00775526014323743,
      "grad_norm": 2.0625,
      "grad_norm_var": 6.345385487874349,
      "learning_rate": 5e-05,
      "loss": 0.1772,
      "loss/crossentropy": 2.8355026245117188,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.138671875,
      "loss/idx": 0.0,
      "loss/logits": 0.038478825241327286,
      "step": 941
    },
    {
      "epoch": 0.0077635016524225916,
      "grad_norm": 2.6875,
      "grad_norm_var": 6.287605539957682,
      "learning_rate": 5e-05,
      "loss": 0.1997,
      "loss/crossentropy": 2.347745895385742,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.154296875,
      "loss/idx": 0.0,
      "loss/logits": 0.0454033724963665,
      "step": 942
    },
    {
      "epoch": 0.0077717431616077534,
      "grad_norm": 1.03125,
      "grad_norm_var": 6.403419748942057,
      "learning_rate": 5e-05,
      "loss": 0.098,
      "loss/crossentropy": 0.4349134564399719,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.087890625,
      "loss/idx": 0.0,
      "loss/logits": 0.010073849000036716,
      "step": 943
    },
    {
      "epoch": 0.007779984670792915,
      "grad_norm": 1.5,
      "grad_norm_var": 6.464503733317057,
      "learning_rate": 5e-05,
      "loss": 0.132,
      "loss/crossentropy": 2.370471239089966,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10546875,
      "loss/idx": 0.0,
      "loss/logits": 0.02652416005730629,
      "step": 944
    },
    {
      "epoch": 0.007788226179978077,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.1785296122233073,
      "learning_rate": 5e-05,
      "loss": 0.1954,
      "loss/crossentropy": 2.6951100826263428,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1484375,
      "loss/idx": 0.0,
      "loss/logits": 0.04693574458360672,
      "step": 945
    },
    {
      "epoch": 0.00779646768916324,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.24520670572916667,
      "learning_rate": 5e-05,
      "loss": 0.1673,
      "loss/crossentropy": 1.1609289646148682,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.134765625,
      "loss/idx": 0.0,
      "loss/logits": 0.03258271515369415,
      "step": 946
    },
    {
      "epoch": 0.007804709198348402,
      "grad_norm": 1.8125,
      "grad_norm_var": 0.2462053934733073,
      "learning_rate": 5e-05,
      "loss": 0.1578,
      "loss/crossentropy": 2.407763957977295,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.12353515625,
      "loss/idx": 0.0,
      "loss/logits": 0.034231819212436676,
      "step": 947
    },
    {
      "epoch": 0.007812950707533564,
      "grad_norm": 1.703125,
      "grad_norm_var": 0.2494140625,
      "learning_rate": 5e-05,
      "loss": 0.155,
      "loss/crossentropy": 1.5243741273880005,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.126953125,
      "loss/idx": 0.0,
      "loss/logits": 0.02800397202372551,
      "step": 948
    },
    {
      "epoch": 0.007821192216718726,
      "grad_norm": 5.0625,
      "grad_norm_var": 0.8563189188639323,
      "learning_rate": 5e-05,
      "loss": 0.1713,
      "loss/crossentropy": 1.9425218105316162,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.140625,
      "loss/idx": 0.0,
      "loss/logits": 0.03065253421664238,
      "step": 949
    },
    {
      "epoch": 0.007829433725903888,
      "grad_norm": 3.8125,
      "grad_norm_var": 1.027972157796224,
      "learning_rate": 5e-05,
      "loss": 0.2875,
      "loss/crossentropy": 2.2058985233306885,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.228515625,
      "loss/idx": 0.0,
      "loss/logits": 0.0590139701962471,
      "step": 950
    },
    {
      "epoch": 0.00783767523508905,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.9658406575520834,
      "learning_rate": 5e-05,
      "loss": 0.2211,
      "loss/crossentropy": 2.6648082733154297,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1630859375,
      "loss/idx": 0.0,
      "loss/logits": 0.05802769958972931,
      "step": 951
    },
    {
      "epoch": 0.007845916744274211,
      "grad_norm": 22.875,
      "grad_norm_var": 27.2247314453125,
      "learning_rate": 5e-05,
      "loss": 0.3126,
      "loss/crossentropy": 2.362283945083618,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2578125,
      "loss/idx": 0.0,
      "loss/logits": 0.05479743331670761,
      "step": 952
    },
    {
      "epoch": 0.007854158253459373,
      "grad_norm": 1.3046875,
      "grad_norm_var": 27.4640256245931,
      "learning_rate": 5e-05,
      "loss": 0.1007,
      "loss/crossentropy": 0.38303616642951965,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.08935546875,
      "loss/idx": 0.0,
      "loss/logits": 0.011384121142327785,
      "step": 953
    },
    {
      "epoch": 0.007862399762644535,
      "grad_norm": 1.1484375,
      "grad_norm_var": 27.740185546875,
      "learning_rate": 5e-05,
      "loss": 0.1253,
      "loss/crossentropy": 1.6580368280410767,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0986328125,
      "loss/idx": 0.0,
      "loss/logits": 0.026700211688876152,
      "step": 954
    },
    {
      "epoch": 0.007870641271829697,
      "grad_norm": 1.7734375,
      "grad_norm_var": 27.750869750976562,
      "learning_rate": 5e-05,
      "loss": 0.1519,
      "loss/crossentropy": 2.318824529647827,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11767578125,
      "loss/idx": 0.0,
      "loss/logits": 0.03420557081699371,
      "step": 955
    },
    {
      "epoch": 0.007878882781014859,
      "grad_norm": 3.03125,
      "grad_norm_var": 27.58492202758789,
      "learning_rate": 5e-05,
      "loss": 0.1829,
      "loss/crossentropy": 2.9506826400756836,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.140625,
      "loss/idx": 0.0,
      "loss/logits": 0.042233243584632874,
      "step": 956
    },
    {
      "epoch": 0.00788712429020002,
      "grad_norm": 2.75,
      "grad_norm_var": 27.475665028889974,
      "learning_rate": 5e-05,
      "loss": 0.1622,
      "loss/crossentropy": 1.327090859413147,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.13671875,
      "loss/idx": 0.0,
      "loss/logits": 0.02552720718085766,
      "step": 957
    },
    {
      "epoch": 0.007895365799385183,
      "grad_norm": 2.046875,
      "grad_norm_var": 27.580934397379558,
      "learning_rate": 5e-05,
      "loss": 0.1882,
      "loss/crossentropy": 2.5473806858062744,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1455078125,
      "loss/idx": 0.0,
      "loss/logits": 0.04271348565816879,
      "step": 958
    },
    {
      "epoch": 0.007903607308570345,
      "grad_norm": 1.4453125,
      "grad_norm_var": 27.450960286458333,
      "learning_rate": 5e-05,
      "loss": 0.1266,
      "loss/crossentropy": 1.5830978155136108,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10400390625,
      "loss/idx": 0.0,
      "loss/logits": 0.022615976631641388,
      "step": 959
    },
    {
      "epoch": 0.007911848817755508,
      "grad_norm": 2.53125,
      "grad_norm_var": 27.227925618489582,
      "learning_rate": 5e-05,
      "loss": 0.1684,
      "loss/crossentropy": 2.8910608291625977,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1298828125,
      "loss/idx": 0.0,
      "loss/logits": 0.03847365081310272,
      "step": 960
    },
    {
      "epoch": 0.00792009032694067,
      "grad_norm": 2.109375,
      "grad_norm_var": 27.26726786295573,
      "learning_rate": 5e-05,
      "loss": 0.1292,
      "loss/crossentropy": 1.506900429725647,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.111328125,
      "loss/idx": 0.0,
      "loss/logits": 0.017824511975049973,
      "step": 961
    },
    {
      "epoch": 0.007928331836125832,
      "grad_norm": 5.3125,
      "grad_norm_var": 27.391893513997395,
      "learning_rate": 5e-05,
      "loss": 0.3447,
      "loss/crossentropy": 2.996657133102417,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2734375,
      "loss/idx": 0.0,
      "loss/logits": 0.07124556601047516,
      "step": 962
    },
    {
      "epoch": 0.007936573345310994,
      "grad_norm": 1.703125,
      "grad_norm_var": 27.421708170572916,
      "learning_rate": 5e-05,
      "loss": 0.1274,
      "loss/crossentropy": 1.4830890893936157,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1064453125,
      "loss/idx": 0.0,
      "loss/logits": 0.02091062068939209,
      "step": 963
    },
    {
      "epoch": 0.007944814854496156,
      "grad_norm": 1.0390625,
      "grad_norm_var": 27.6348264058431,
      "learning_rate": 5e-05,
      "loss": 0.0988,
      "loss/crossentropy": 0.4731054902076721,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.08740234375,
      "loss/idx": 0.0,
      "loss/logits": 0.011356725357472897,
      "step": 964
    },
    {
      "epoch": 0.007953056363681318,
      "grad_norm": 3.203125,
      "grad_norm_var": 27.5273312886556,
      "learning_rate": 5e-05,
      "loss": 0.2465,
      "loss/crossentropy": 2.7651779651641846,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.203125,
      "loss/idx": 0.0,
      "loss/logits": 0.043382175266742706,
      "step": 965
    },
    {
      "epoch": 0.00796129787286648,
      "grad_norm": 2.953125,
      "grad_norm_var": 27.553851064046224,
      "learning_rate": 5e-05,
      "loss": 0.2593,
      "loss/crossentropy": 1.5127090215682983,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.212890625,
      "loss/idx": 0.0,
      "loss/logits": 0.04636671021580696,
      "step": 966
    },
    {
      "epoch": 0.007969539382051642,
      "grad_norm": 3.0,
      "grad_norm_var": 27.44041519165039,
      "learning_rate": 5e-05,
      "loss": 0.1922,
      "loss/crossentropy": 1.4316555261611938,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.16796875,
      "loss/idx": 0.0,
      "loss/logits": 0.024203313514590263,
      "step": 967
    },
    {
      "epoch": 0.007977780891236803,
      "grad_norm": 1.6875,
      "grad_norm_var": 1.1560523986816407,
      "learning_rate": 5e-05,
      "loss": 0.1196,
      "loss/crossentropy": 1.2071629762649536,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1025390625,
      "loss/idx": 0.0,
      "loss/logits": 0.017063483595848083,
      "step": 968
    },
    {
      "epoch": 0.007986022400421965,
      "grad_norm": 2.375,
      "grad_norm_var": 1.0834788004557292,
      "learning_rate": 5e-05,
      "loss": 0.1698,
      "loss/crossentropy": 2.020332098007202,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1396484375,
      "loss/idx": 0.0,
      "loss/logits": 0.030112620443105698,
      "step": 969
    },
    {
      "epoch": 0.007994263909607127,
      "grad_norm": 3.421875,
      "grad_norm_var": 1.0326372782389324,
      "learning_rate": 5e-05,
      "loss": 0.2121,
      "loss/crossentropy": 1.4469772577285767,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1767578125,
      "loss/idx": 0.0,
      "loss/logits": 0.03534634783864021,
      "step": 970
    },
    {
      "epoch": 0.008002505418792289,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.9961415608723958,
      "learning_rate": 5e-05,
      "loss": 0.198,
      "loss/crossentropy": 2.7077815532684326,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.15234375,
      "loss/idx": 0.0,
      "loss/logits": 0.045610323548316956,
      "step": 971
    },
    {
      "epoch": 0.008010746927977451,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.9894765218098959,
      "learning_rate": 5e-05,
      "loss": 0.1874,
      "loss/crossentropy": 1.9022347927093506,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.154296875,
      "loss/idx": 0.0,
      "loss/logits": 0.033076584339141846,
      "step": 972
    },
    {
      "epoch": 0.008018988437162613,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.9882893880208333,
      "learning_rate": 5e-05,
      "loss": 0.1256,
      "loss/crossentropy": 0.7915277481079102,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11181640625,
      "loss/idx": 0.0,
      "loss/logits": 0.013769976794719696,
      "step": 973
    },
    {
      "epoch": 0.008027229946347775,
      "grad_norm": 4.875,
      "grad_norm_var": 1.3040598551432292,
      "learning_rate": 5e-05,
      "loss": 0.3439,
      "loss/crossentropy": 2.4664230346679688,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.28515625,
      "loss/idx": 0.0,
      "loss/logits": 0.05875328183174133,
      "step": 974
    },
    {
      "epoch": 0.008035471455532937,
      "grad_norm": 1.609375,
      "grad_norm_var": 1.2780352274576823,
      "learning_rate": 5e-05,
      "loss": 0.1361,
      "loss/crossentropy": 2.0170304775238037,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.111328125,
      "loss/idx": 0.0,
      "loss/logits": 0.024749569594860077,
      "step": 975
    },
    {
      "epoch": 0.008043712964718099,
      "grad_norm": 2.078125,
      "grad_norm_var": 1.3024024963378906,
      "learning_rate": 5e-05,
      "loss": 0.1647,
      "loss/crossentropy": 2.516977310180664,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.130859375,
      "loss/idx": 0.0,
      "loss/logits": 0.033810123801231384,
      "step": 976
    },
    {
      "epoch": 0.00805195447390326,
      "grad_norm": 2.421875,
      "grad_norm_var": 1.2841529846191406,
      "learning_rate": 5e-05,
      "loss": 0.1797,
      "loss/crossentropy": 1.6354763507843018,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.142578125,
      "loss/idx": 0.0,
      "loss/logits": 0.03713398799300194,
      "step": 977
    },
    {
      "epoch": 0.008060195983088422,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.8040667215983073,
      "learning_rate": 5e-05,
      "loss": 0.1307,
      "loss/crossentropy": 2.52553653717041,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10546875,
      "loss/idx": 0.0,
      "loss/logits": 0.025194775313138962,
      "step": 978
    },
    {
      "epoch": 0.008068437492273586,
      "grad_norm": 1.15625,
      "grad_norm_var": 0.8841041564941406,
      "learning_rate": 5e-05,
      "loss": 0.1438,
      "loss/crossentropy": 2.593212127685547,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11328125,
      "loss/idx": 0.0,
      "loss/logits": 0.030498359352350235,
      "step": 979
    },
    {
      "epoch": 0.008076679001458748,
      "grad_norm": 1.3203125,
      "grad_norm_var": 0.8338783264160157,
      "learning_rate": 5e-05,
      "loss": 0.1281,
      "loss/crossentropy": 2.2054710388183594,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10107421875,
      "loss/idx": 0.0,
      "loss/logits": 0.02705022320151329,
      "step": 980
    },
    {
      "epoch": 0.00808492051064391,
      "grad_norm": 1.390625,
      "grad_norm_var": 0.8760047912597656,
      "learning_rate": 5e-05,
      "loss": 0.1358,
      "loss/crossentropy": 1.5589760541915894,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1103515625,
      "loss/idx": 0.0,
      "loss/logits": 0.025421902537345886,
      "step": 981
    },
    {
      "epoch": 0.008093162019829072,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.8555946350097656,
      "learning_rate": 5e-05,
      "loss": 0.1685,
      "loss/crossentropy": 2.5976901054382324,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.130859375,
      "loss/idx": 0.0,
      "loss/logits": 0.03766857087612152,
      "step": 982
    },
    {
      "epoch": 0.008101403529014234,
      "grad_norm": 1.703125,
      "grad_norm_var": 0.853905995686849,
      "learning_rate": 5e-05,
      "loss": 0.1405,
      "loss/crossentropy": 1.4126673936843872,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.115234375,
      "loss/idx": 0.0,
      "loss/logits": 0.025234002619981766,
      "step": 983
    },
    {
      "epoch": 0.008109645038199395,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.859545644124349,
      "learning_rate": 5e-05,
      "loss": 0.1731,
      "loss/crossentropy": 1.74605131149292,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1376953125,
      "loss/idx": 0.0,
      "loss/logits": 0.035446591675281525,
      "step": 984
    },
    {
      "epoch": 0.008117886547384557,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.8763201395670573,
      "learning_rate": 5e-05,
      "loss": 0.124,
      "loss/crossentropy": 1.0640939474105835,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1044921875,
      "loss/idx": 0.0,
      "loss/logits": 0.019489990547299385,
      "step": 985
    },
    {
      "epoch": 0.00812612805656972,
      "grad_norm": 1.6171875,
      "grad_norm_var": 0.8388987223307292,
      "learning_rate": 5e-05,
      "loss": 0.142,
      "loss/crossentropy": 1.6699655055999756,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11474609375,
      "loss/idx": 0.0,
      "loss/logits": 0.02729114145040512,
      "step": 986
    },
    {
      "epoch": 0.008134369565754881,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.8218658447265625,
      "learning_rate": 5e-05,
      "loss": 0.1273,
      "loss/crossentropy": 0.9518370032310486,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.10693359375,
      "loss/idx": 0.0,
      "loss/logits": 0.020414654165506363,
      "step": 987
    },
    {
      "epoch": 0.008142611074940043,
      "grad_norm": 1.9453125,
      "grad_norm_var": 0.8288530985514323,
      "learning_rate": 5e-05,
      "loss": 0.1543,
      "loss/crossentropy": 2.4604508876800537,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.03225576505064964,
      "step": 988
    },
    {
      "epoch": 0.008150852584125205,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.8185991923014323,
      "learning_rate": 5e-05,
      "loss": 0.1825,
      "loss/crossentropy": 2.5151901245117188,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.140625,
      "loss/idx": 0.0,
      "loss/logits": 0.04188704490661621,
      "step": 989
    },
    {
      "epoch": 0.008159094093310367,
      "grad_norm": 3.8125,
      "grad_norm_var": 0.5173500061035157,
      "learning_rate": 5e-05,
      "loss": 0.1537,
      "loss/crossentropy": 2.6265015602111816,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.119140625,
      "loss/idx": 0.0,
      "loss/logits": 0.03460276871919632,
      "step": 990
    },
    {
      "epoch": 0.008167335602495529,
      "grad_norm": 1.4921875,
      "grad_norm_var": 0.5271881103515625,
      "learning_rate": 5e-05,
      "loss": 0.1395,
      "loss/crossentropy": 2.9253175258636475,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.109375,
      "loss/idx": 0.0,
      "loss/logits": 0.030113544315099716,
      "step": 991
    },
    {
      "epoch": 0.00817557711168069,
      "grad_norm": 1.3828125,
      "grad_norm_var": 0.5665484110514323,
      "learning_rate": 5e-05,
      "loss": 0.1456,
      "loss/crossentropy": 2.487765073776245,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.11328125,
      "loss/idx": 0.0,
      "loss/logits": 0.032366957515478134,
      "step": 992
    },
    {
      "epoch": 0.008183818620865852,
      "grad_norm": 1.796875,
      "grad_norm_var": 0.5669146219889323,
      "learning_rate": 5e-05,
      "loss": 0.1707,
      "loss/crossentropy": 2.329315185546875,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.13671875,
      "loss/idx": 0.0,
      "loss/logits": 0.03394667059183121,
      "step": 993
    },
    {
      "epoch": 0.008192060130051014,
      "grad_norm": 3.78125,
      "grad_norm_var": 0.7332354227701823,
      "learning_rate": 5e-05,
      "loss": 0.1519,
      "loss/crossentropy": 2.148042917251587,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1220703125,
      "loss/idx": 0.0,
      "loss/logits": 0.029824528843164444,
      "step": 994
    },
    {
      "epoch": 0.008200301639236176,
      "grad_norm": 25.625,
      "grad_norm_var": 34.854078928629555,
      "learning_rate": 5e-05,
      "loss": 0.334,
      "loss/crossentropy": 1.8628984689712524,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.27734375,
      "loss/idx": 0.0,
      "loss/logits": 0.05670515447854996,
      "step": 995
    },
    {
      "epoch": 0.008208543148421338,
      "grad_norm": 1.4375,
      "grad_norm_var": 34.81780497233073,
      "learning_rate": 5e-05,
      "loss": 0.1181,
      "loss/crossentropy": 2.3790695667266846,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.0947265625,
      "loss/idx": 0.0,
      "loss/logits": 0.02332988940179348,
      "step": 996
    },
    {
      "epoch": 0.0082167846576065,
      "grad_norm": 1.2734375,
      "grad_norm_var": 34.854811350504555,
      "learning_rate": 5e-05,
      "loss": 0.1176,
      "loss/crossentropy": 1.283698320388794,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1005859375,
      "loss/idx": 0.0,
      "loss/logits": 0.016972240060567856,
      "step": 997
    },
    {
      "epoch": 0.008225026166791664,
      "grad_norm": 2.640625,
      "grad_norm_var": 34.82328465779622,
      "learning_rate": 5e-05,
      "loss": 0.1779,
      "loss/crossentropy": 2.7694525718688965,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1337890625,
      "loss/idx": 0.0,
      "loss/logits": 0.04413297772407532,
      "step": 998
    },
    {
      "epoch": 0.008233267675976826,
      "grad_norm": 1.8828125,
      "grad_norm_var": 34.77723388671875,
      "learning_rate": 5e-05,
      "loss": 0.1636,
      "loss/crossentropy": 2.530651330947876,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.1298828125,
      "loss/idx": 0.0,
      "loss/logits": 0.0337049663066864,
      "step": 999
    },
    {
      "epoch": 0.008241509185161987,
      "grad_norm": 5.5625,
      "grad_norm_var": 34.94845784505208,
      "learning_rate": 5e-05,
      "loss": 0.278,
      "loss/crossentropy": 1.1534559726715088,
      "loss/dist_ce": 0.0,
      "loss/hidden": 0.2333984375,
      "loss/idx": 0.0,
      "loss/logits": 0.04459930956363678,
      "step": 1000
    }
  ],
  "logging_steps": 1,
  "max_steps": 100000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 7.8956539674624e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}