{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.078762306610408,
  "eval_steps": 50,
  "global_step": 1096,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0028129395218002813,
      "grad_norm": 75.0997085571289,
      "learning_rate": 0.0,
      "loss": 6.7334,
      "step": 1
    },
    {
      "epoch": 0.005625879043600563,
      "grad_norm": 77.64845275878906,
      "learning_rate": 1.8181818181818183e-07,
      "loss": 7.1245,
      "step": 2
    },
    {
      "epoch": 0.008438818565400843,
      "grad_norm": 72.08865356445312,
      "learning_rate": 3.6363636363636366e-07,
      "loss": 7.1721,
      "step": 3
    },
    {
      "epoch": 0.011251758087201125,
      "grad_norm": 86.44847106933594,
      "learning_rate": 5.454545454545455e-07,
      "loss": 7.4339,
      "step": 4
    },
    {
      "epoch": 0.014064697609001406,
      "grad_norm": 75.51171875,
      "learning_rate": 7.272727272727273e-07,
      "loss": 6.9712,
      "step": 5
    },
    {
      "epoch": 0.016877637130801686,
      "grad_norm": 73.0139389038086,
      "learning_rate": 9.090909090909091e-07,
      "loss": 7.0641,
      "step": 6
    },
    {
      "epoch": 0.01969057665260197,
      "grad_norm": 78.8460464477539,
      "learning_rate": 1.090909090909091e-06,
      "loss": 7.3246,
      "step": 7
    },
    {
      "epoch": 0.02250351617440225,
      "grad_norm": 73.03649139404297,
      "learning_rate": 1.2727272727272728e-06,
      "loss": 6.5645,
      "step": 8
    },
    {
      "epoch": 0.02531645569620253,
      "grad_norm": 83.64058685302734,
      "learning_rate": 1.4545454545454546e-06,
      "loss": 7.0709,
      "step": 9
    },
    {
      "epoch": 0.02812939521800281,
      "grad_norm": 98.82685089111328,
      "learning_rate": 1.6363636363636365e-06,
      "loss": 7.9752,
      "step": 10
    },
    {
      "epoch": 0.030942334739803096,
      "grad_norm": 77.33248901367188,
      "learning_rate": 1.8181818181818183e-06,
      "loss": 6.7595,
      "step": 11
    },
    {
      "epoch": 0.03375527426160337,
      "grad_norm": 75.38268280029297,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 7.2824,
      "step": 12
    },
    {
      "epoch": 0.03656821378340366,
      "grad_norm": 84.62842559814453,
      "learning_rate": 2.181818181818182e-06,
      "loss": 7.3766,
      "step": 13
    },
    {
      "epoch": 0.03938115330520394,
      "grad_norm": 79.66527557373047,
      "learning_rate": 2.363636363636364e-06,
      "loss": 6.902,
      "step": 14
    },
    {
      "epoch": 0.04219409282700422,
      "grad_norm": 88.1312026977539,
      "learning_rate": 2.5454545454545456e-06,
      "loss": 7.5326,
      "step": 15
    },
    {
      "epoch": 0.0450070323488045,
      "grad_norm": 67.1671371459961,
      "learning_rate": 2.7272727272727272e-06,
      "loss": 6.6224,
      "step": 16
    },
    {
      "epoch": 0.04781997187060478,
      "grad_norm": 78.15252685546875,
      "learning_rate": 2.9090909090909093e-06,
      "loss": 7.2991,
      "step": 17
    },
    {
      "epoch": 0.05063291139240506,
      "grad_norm": 89.14740753173828,
      "learning_rate": 3.090909090909091e-06,
      "loss": 7.316,
      "step": 18
    },
    {
      "epoch": 0.053445850914205346,
      "grad_norm": 82.18356323242188,
      "learning_rate": 3.272727272727273e-06,
      "loss": 7.2328,
      "step": 19
    },
    {
      "epoch": 0.05625879043600562,
      "grad_norm": 75.57778930664062,
      "learning_rate": 3.454545454545455e-06,
      "loss": 6.8493,
      "step": 20
    },
    {
      "epoch": 0.05907172995780591,
      "grad_norm": 91.4236068725586,
      "learning_rate": 3.6363636363636366e-06,
      "loss": 7.251,
      "step": 21
    },
    {
      "epoch": 0.06188466947960619,
      "grad_norm": 69.89977264404297,
      "learning_rate": 3.818181818181819e-06,
      "loss": 6.1767,
      "step": 22
    },
    {
      "epoch": 0.06469760900140648,
      "grad_norm": 79.23346710205078,
      "learning_rate": 4.000000000000001e-06,
      "loss": 6.5113,
      "step": 23
    },
    {
      "epoch": 0.06751054852320675,
      "grad_norm": 75.04463958740234,
      "learning_rate": 4.181818181818182e-06,
      "loss": 6.3854,
      "step": 24
    },
    {
      "epoch": 0.07032348804500703,
      "grad_norm": 90.92483520507812,
      "learning_rate": 4.363636363636364e-06,
      "loss": 7.383,
      "step": 25
    },
    {
      "epoch": 0.07313642756680731,
      "grad_norm": 69.97665405273438,
      "learning_rate": 4.5454545454545455e-06,
      "loss": 6.1346,
      "step": 26
    },
    {
      "epoch": 0.0759493670886076,
      "grad_norm": 89.80615234375,
      "learning_rate": 4.727272727272728e-06,
      "loss": 6.9564,
      "step": 27
    },
    {
      "epoch": 0.07876230661040788,
      "grad_norm": 81.48190307617188,
      "learning_rate": 4.90909090909091e-06,
      "loss": 6.7021,
      "step": 28
    },
    {
      "epoch": 0.08157524613220815,
      "grad_norm": 79.94600677490234,
      "learning_rate": 5.090909090909091e-06,
      "loss": 5.7781,
      "step": 29
    },
    {
      "epoch": 0.08438818565400844,
      "grad_norm": 80.19660949707031,
      "learning_rate": 5.272727272727273e-06,
      "loss": 5.7521,
      "step": 30
    },
    {
      "epoch": 0.08720112517580872,
      "grad_norm": 74.73751831054688,
      "learning_rate": 5.4545454545454545e-06,
      "loss": 5.2344,
      "step": 31
    },
    {
      "epoch": 0.090014064697609,
      "grad_norm": 84.3858871459961,
      "learning_rate": 5.636363636363636e-06,
      "loss": 5.6553,
      "step": 32
    },
    {
      "epoch": 0.09282700421940929,
      "grad_norm": 93.59162902832031,
      "learning_rate": 5.8181818181818185e-06,
      "loss": 5.0521,
      "step": 33
    },
    {
      "epoch": 0.09563994374120956,
      "grad_norm": 68.47096252441406,
      "learning_rate": 6e-06,
      "loss": 5.225,
      "step": 34
    },
    {
      "epoch": 0.09845288326300984,
      "grad_norm": 62.65687942504883,
      "learning_rate": 6.181818181818182e-06,
      "loss": 4.338,
      "step": 35
    },
    {
      "epoch": 0.10126582278481013,
      "grad_norm": 66.28219604492188,
      "learning_rate": 6.363636363636364e-06,
      "loss": 4.714,
      "step": 36
    },
    {
      "epoch": 0.10407876230661041,
      "grad_norm": 64.53064727783203,
      "learning_rate": 6.545454545454546e-06,
      "loss": 4.8437,
      "step": 37
    },
    {
      "epoch": 0.10689170182841069,
      "grad_norm": 40.499000549316406,
      "learning_rate": 6.7272727272727275e-06,
      "loss": 4.5761,
      "step": 38
    },
    {
      "epoch": 0.10970464135021098,
      "grad_norm": 40.0291633605957,
      "learning_rate": 6.90909090909091e-06,
      "loss": 4.1693,
      "step": 39
    },
    {
      "epoch": 0.11251758087201125,
      "grad_norm": 19.737794876098633,
      "learning_rate": 7.0909090909090916e-06,
      "loss": 3.7602,
      "step": 40
    },
    {
      "epoch": 0.11533052039381153,
      "grad_norm": 18.727174758911133,
      "learning_rate": 7.272727272727273e-06,
      "loss": 3.941,
      "step": 41
    },
    {
      "epoch": 0.11814345991561181,
      "grad_norm": 15.440817832946777,
      "learning_rate": 7.454545454545456e-06,
      "loss": 3.676,
      "step": 42
    },
    {
      "epoch": 0.1209563994374121,
      "grad_norm": 49.393409729003906,
      "learning_rate": 7.636363636363638e-06,
      "loss": 3.5502,
      "step": 43
    },
    {
      "epoch": 0.12376933895921238,
      "grad_norm": 29.366811752319336,
      "learning_rate": 7.81818181818182e-06,
      "loss": 3.174,
      "step": 44
    },
    {
      "epoch": 0.12658227848101267,
      "grad_norm": 26.623790740966797,
      "learning_rate": 8.000000000000001e-06,
      "loss": 3.1249,
      "step": 45
    },
    {
      "epoch": 0.12939521800281295,
      "grad_norm": 23.555133819580078,
      "learning_rate": 8.181818181818183e-06,
      "loss": 3.5312,
      "step": 46
    },
    {
      "epoch": 0.13220815752461323,
      "grad_norm": 33.85753631591797,
      "learning_rate": 8.363636363636365e-06,
      "loss": 3.4659,
      "step": 47
    },
    {
      "epoch": 0.1350210970464135,
      "grad_norm": 17.72439193725586,
      "learning_rate": 8.545454545454546e-06,
      "loss": 2.7741,
      "step": 48
    },
    {
      "epoch": 0.13783403656821377,
      "grad_norm": 17.903911590576172,
      "learning_rate": 8.727272727272728e-06,
      "loss": 3.334,
      "step": 49
    },
    {
      "epoch": 0.14064697609001406,
      "grad_norm": 15.8783597946167,
      "learning_rate": 8.90909090909091e-06,
      "loss": 2.7859,
      "step": 50
    },
    {
      "epoch": 0.14064697609001406,
      "eval_loss": 1.4928081035614014,
      "eval_runtime": 2.8043,
      "eval_samples_per_second": 9.271,
      "eval_steps_per_second": 1.426,
      "step": 50
    },
    {
      "epoch": 0.14064697609001406,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 805.75,
      "eval_avg_mem_token_accuracy": 0.25177304964539005,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.007424448394855171,
      "eval_avg_mem_token_rate": 0.6361338388877802,
      "eval_avg_mem_token_recall(Accuracy)": 0.25177304964539005,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 50,
      "eval_loss": 1.4928081035614014,
      "eval_num_samples": 30,
      "eval_runtime": 2.8043,
      "eval_samples_per_second": 9.271,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.426,
      "eval_total_correct_count": 71,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 9563,
      "step": 50
    },
    {
      "epoch": 0.14345991561181434,
      "grad_norm": 9.468743324279785,
      "learning_rate": 9.090909090909091e-06,
      "loss": 2.8193,
      "step": 51
    },
    {
      "epoch": 0.14627285513361463,
      "grad_norm": 8.735793113708496,
      "learning_rate": 9.272727272727273e-06,
      "loss": 2.624,
      "step": 52
    },
    {
      "epoch": 0.1490857946554149,
      "grad_norm": 11.669722557067871,
      "learning_rate": 9.454545454545456e-06,
      "loss": 2.8725,
      "step": 53
    },
    {
      "epoch": 0.1518987341772152,
      "grad_norm": 16.81114959716797,
      "learning_rate": 9.636363636363638e-06,
      "loss": 2.4657,
      "step": 54
    },
    {
      "epoch": 0.15471167369901548,
      "grad_norm": 19.379348754882812,
      "learning_rate": 9.81818181818182e-06,
      "loss": 2.1279,
      "step": 55
    },
    {
      "epoch": 0.15752461322081576,
      "grad_norm": 13.823864936828613,
      "learning_rate": 1e-05,
      "loss": 2.3733,
      "step": 56
    },
    {
      "epoch": 0.16033755274261605,
      "grad_norm": 14.514190673828125,
      "learning_rate": 9.999977231314128e-06,
      "loss": 2.1855,
      "step": 57
    },
    {
      "epoch": 0.1631504922644163,
      "grad_norm": 24.133705139160156,
      "learning_rate": 9.99990892546387e-06,
      "loss": 2.2268,
      "step": 58
    },
    {
      "epoch": 0.1659634317862166,
      "grad_norm": 13.885165214538574,
      "learning_rate": 9.999795083071328e-06,
      "loss": 2.1062,
      "step": 59
    },
    {
      "epoch": 0.16877637130801687,
      "grad_norm": 6.023658752441406,
      "learning_rate": 9.999635705173312e-06,
      "loss": 1.9233,
      "step": 60
    },
    {
      "epoch": 0.17158931082981715,
      "grad_norm": 5.1499104499816895,
      "learning_rate": 9.999430793221356e-06,
      "loss": 2.117,
      "step": 61
    },
    {
      "epoch": 0.17440225035161744,
      "grad_norm": 5.638373851776123,
      "learning_rate": 9.999180349081688e-06,
      "loss": 2.2507,
      "step": 62
    },
    {
      "epoch": 0.17721518987341772,
      "grad_norm": 5.992455959320068,
      "learning_rate": 9.998884375035221e-06,
      "loss": 1.9682,
      "step": 63
    },
    {
      "epoch": 0.180028129395218,
      "grad_norm": 4.536100387573242,
      "learning_rate": 9.998542873777534e-06,
      "loss": 1.955,
      "step": 64
    },
    {
      "epoch": 0.1828410689170183,
      "grad_norm": 11.286314964294434,
      "learning_rate": 9.99815584841884e-06,
      "loss": 2.1629,
      "step": 65
    },
    {
      "epoch": 0.18565400843881857,
      "grad_norm": 9.133061408996582,
      "learning_rate": 9.99772330248396e-06,
      "loss": 1.4339,
      "step": 66
    },
    {
      "epoch": 0.18846694796061886,
      "grad_norm": 7.25726842880249,
      "learning_rate": 9.997245239912299e-06,
      "loss": 2.0025,
      "step": 67
    },
    {
      "epoch": 0.19127988748241911,
      "grad_norm": 5.315834045410156,
      "learning_rate": 9.996721665057796e-06,
      "loss": 1.7737,
      "step": 68
    },
    {
      "epoch": 0.1940928270042194,
      "grad_norm": 3.770214080810547,
      "learning_rate": 9.996152582688899e-06,
      "loss": 1.8984,
      "step": 69
    },
    {
      "epoch": 0.19690576652601968,
      "grad_norm": 4.797364711761475,
      "learning_rate": 9.995537997988507e-06,
      "loss": 2.0319,
      "step": 70
    },
    {
      "epoch": 0.19971870604781997,
      "grad_norm": 5.449586391448975,
      "learning_rate": 9.994877916553937e-06,
      "loss": 1.7875,
      "step": 71
    },
    {
      "epoch": 0.20253164556962025,
      "grad_norm": 3.06927227973938,
      "learning_rate": 9.994172344396866e-06,
      "loss": 1.5467,
      "step": 72
    },
    {
      "epoch": 0.20534458509142053,
      "grad_norm": 3.089805841445923,
      "learning_rate": 9.99342128794327e-06,
      "loss": 1.3562,
      "step": 73
    },
    {
      "epoch": 0.20815752461322082,
      "grad_norm": 3.4402778148651123,
      "learning_rate": 9.992624754033377e-06,
      "loss": 1.7436,
      "step": 74
    },
    {
      "epoch": 0.2109704641350211,
      "grad_norm": 2.948519706726074,
      "learning_rate": 9.991782749921601e-06,
      "loss": 1.5302,
      "step": 75
    },
    {
      "epoch": 0.21378340365682139,
      "grad_norm": 6.839716911315918,
      "learning_rate": 9.990895283276472e-06,
      "loss": 1.6953,
      "step": 76
    },
    {
      "epoch": 0.21659634317862167,
      "grad_norm": 4.01812219619751,
      "learning_rate": 9.98996236218057e-06,
      "loss": 1.7822,
      "step": 77
    },
    {
      "epoch": 0.21940928270042195,
      "grad_norm": 4.928662300109863,
      "learning_rate": 9.98898399513045e-06,
      "loss": 1.4248,
      "step": 78
    },
    {
      "epoch": 0.2222222222222222,
      "grad_norm": 3.146573305130005,
      "learning_rate": 9.987960191036564e-06,
      "loss": 1.6365,
      "step": 79
    },
    {
      "epoch": 0.2250351617440225,
      "grad_norm": 4.380753993988037,
      "learning_rate": 9.986890959223181e-06,
      "loss": 1.7186,
      "step": 80
    },
    {
      "epoch": 0.22784810126582278,
      "grad_norm": 2.831251621246338,
      "learning_rate": 9.985776309428306e-06,
      "loss": 1.4852,
      "step": 81
    },
    {
      "epoch": 0.23066104078762306,
      "grad_norm": 3.742809772491455,
      "learning_rate": 9.984616251803577e-06,
      "loss": 1.5631,
      "step": 82
    },
    {
      "epoch": 0.23347398030942335,
      "grad_norm": 3.9068987369537354,
      "learning_rate": 9.983410796914197e-06,
      "loss": 1.482,
      "step": 83
    },
    {
      "epoch": 0.23628691983122363,
      "grad_norm": 3.327174663543701,
      "learning_rate": 9.982159955738808e-06,
      "loss": 1.608,
      "step": 84
    },
    {
      "epoch": 0.2390998593530239,
      "grad_norm": 3.083757162094116,
      "learning_rate": 9.980863739669419e-06,
      "loss": 1.5167,
      "step": 85
    },
    {
      "epoch": 0.2419127988748242,
      "grad_norm": 2.9441981315612793,
      "learning_rate": 9.979522160511282e-06,
      "loss": 1.6137,
      "step": 86
    },
    {
      "epoch": 0.24472573839662448,
      "grad_norm": 2.8649449348449707,
      "learning_rate": 9.978135230482797e-06,
      "loss": 1.665,
      "step": 87
    },
    {
      "epoch": 0.24753867791842477,
      "grad_norm": 3.0601882934570312,
      "learning_rate": 9.97670296221539e-06,
      "loss": 1.5845,
      "step": 88
    },
    {
      "epoch": 0.25035161744022505,
      "grad_norm": 4.856632232666016,
      "learning_rate": 9.975225368753412e-06,
      "loss": 1.5959,
      "step": 89
    },
    {
      "epoch": 0.25316455696202533,
      "grad_norm": 3.0896317958831787,
      "learning_rate": 9.973702463554004e-06,
      "loss": 1.2724,
      "step": 90
    },
    {
      "epoch": 0.2559774964838256,
      "grad_norm": 2.862079381942749,
      "learning_rate": 9.972134260486989e-06,
      "loss": 1.73,
      "step": 91
    },
    {
      "epoch": 0.2587904360056259,
      "grad_norm": 2.281548500061035,
      "learning_rate": 9.970520773834734e-06,
      "loss": 1.4366,
      "step": 92
    },
    {
      "epoch": 0.2616033755274262,
      "grad_norm": 2.9218814373016357,
      "learning_rate": 9.968862018292025e-06,
      "loss": 1.7853,
      "step": 93
    },
    {
      "epoch": 0.26441631504922647,
      "grad_norm": 3.361042022705078,
      "learning_rate": 9.967158008965942e-06,
      "loss": 1.5868,
      "step": 94
    },
    {
      "epoch": 0.2672292545710267,
      "grad_norm": 2.6090950965881348,
      "learning_rate": 9.965408761375702e-06,
      "loss": 1.6479,
      "step": 95
    },
    {
      "epoch": 0.270042194092827,
      "grad_norm": 2.4182980060577393,
      "learning_rate": 9.963614291452532e-06,
      "loss": 1.4854,
      "step": 96
    },
    {
      "epoch": 0.27285513361462727,
      "grad_norm": 2.7494289875030518,
      "learning_rate": 9.961774615539523e-06,
      "loss": 1.6097,
      "step": 97
    },
    {
      "epoch": 0.27566807313642755,
      "grad_norm": 3.082038402557373,
      "learning_rate": 9.959889750391474e-06,
      "loss": 1.3752,
      "step": 98
    },
    {
      "epoch": 0.27848101265822783,
      "grad_norm": 3.282862663269043,
      "learning_rate": 9.957959713174748e-06,
      "loss": 1.3782,
      "step": 99
    },
    {
      "epoch": 0.2812939521800281,
      "grad_norm": 2.0881476402282715,
      "learning_rate": 9.955984521467108e-06,
      "loss": 1.3952,
      "step": 100
    },
    {
      "epoch": 0.2812939521800281,
      "eval_loss": 0.7734614014625549,
      "eval_runtime": 2.8846,
      "eval_samples_per_second": 9.013,
      "eval_steps_per_second": 1.387,
      "step": 100
    },
    {
      "epoch": 0.2812939521800281,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 638.5,
      "eval_avg_mem_token_accuracy": 0.24822695035460993,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.008693492300049677,
      "eval_avg_mem_token_rate": 0.5356216324087009,
      "eval_avg_mem_token_recall(Accuracy)": 0.24822695035460993,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 100,
      "eval_loss": 0.7734614014625549,
      "eval_num_samples": 30,
      "eval_runtime": 2.8846,
      "eval_samples_per_second": 9.013,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.387,
      "eval_total_correct_count": 70,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8052,
      "step": 100
    },
    {
      "epoch": 0.2841068917018284,
      "grad_norm": 2.6222341060638428,
      "learning_rate": 9.953964193257563e-06,
      "loss": 1.5721,
      "step": 101
    },
    {
      "epoch": 0.2869198312236287,
      "grad_norm": 2.3316454887390137,
      "learning_rate": 9.951898746946201e-06,
      "loss": 1.3596,
      "step": 102
    },
    {
      "epoch": 0.28973277074542897,
      "grad_norm": 2.174182176589966,
      "learning_rate": 9.949788201344019e-06,
      "loss": 1.2779,
      "step": 103
    },
    {
      "epoch": 0.29254571026722925,
      "grad_norm": 2.538205862045288,
      "learning_rate": 9.947632575672758e-06,
      "loss": 1.3406,
      "step": 104
    },
    {
      "epoch": 0.29535864978902954,
      "grad_norm": 1.902901291847229,
      "learning_rate": 9.945431889564724e-06,
      "loss": 1.1408,
      "step": 105
    },
    {
      "epoch": 0.2981715893108298,
      "grad_norm": 2.382870674133301,
      "learning_rate": 9.943186163062607e-06,
      "loss": 1.3498,
      "step": 106
    },
    {
      "epoch": 0.3009845288326301,
      "grad_norm": 2.490842342376709,
      "learning_rate": 9.940895416619308e-06,
      "loss": 1.401,
      "step": 107
    },
    {
      "epoch": 0.3037974683544304,
      "grad_norm": 2.9286532402038574,
      "learning_rate": 9.938559671097739e-06,
      "loss": 1.5762,
      "step": 108
    },
    {
      "epoch": 0.3066104078762307,
      "grad_norm": 2.838031530380249,
      "learning_rate": 9.93617894777064e-06,
      "loss": 1.5001,
      "step": 109
    },
    {
      "epoch": 0.30942334739803096,
      "grad_norm": 2.0874297618865967,
      "learning_rate": 9.933753268320391e-06,
      "loss": 1.3123,
      "step": 110
    },
    {
      "epoch": 0.31223628691983124,
      "grad_norm": 2.5237607955932617,
      "learning_rate": 9.931282654838803e-06,
      "loss": 1.2764,
      "step": 111
    },
    {
      "epoch": 0.3150492264416315,
      "grad_norm": 2.4033403396606445,
      "learning_rate": 9.928767129826929e-06,
      "loss": 1.3374,
      "step": 112
    },
    {
      "epoch": 0.3178621659634318,
      "grad_norm": 2.2955803871154785,
      "learning_rate": 9.926206716194842e-06,
      "loss": 1.3878,
      "step": 113
    },
    {
      "epoch": 0.3206751054852321,
      "grad_norm": 3.3657052516937256,
      "learning_rate": 9.92360143726145e-06,
      "loss": 1.288,
      "step": 114
    },
    {
      "epoch": 0.3234880450070324,
      "grad_norm": 3.1771109104156494,
      "learning_rate": 9.920951316754259e-06,
      "loss": 1.4854,
      "step": 115
    },
    {
      "epoch": 0.3263009845288326,
      "grad_norm": 2.6639983654022217,
      "learning_rate": 9.918256378809178e-06,
      "loss": 1.5049,
      "step": 116
    },
    {
      "epoch": 0.3291139240506329,
      "grad_norm": 2.107646942138672,
      "learning_rate": 9.915516647970283e-06,
      "loss": 1.2783,
      "step": 117
    },
    {
      "epoch": 0.3319268635724332,
      "grad_norm": 2.307697296142578,
      "learning_rate": 9.9127321491896e-06,
      "loss": 1.3444,
      "step": 118
    },
    {
      "epoch": 0.33473980309423346,
      "grad_norm": 2.160855293273926,
      "learning_rate": 9.909902907826884e-06,
      "loss": 1.112,
      "step": 119
    },
    {
      "epoch": 0.33755274261603374,
      "grad_norm": 2.300719976425171,
      "learning_rate": 9.907028949649376e-06,
      "loss": 1.3957,
      "step": 120
    },
    {
      "epoch": 0.340365682137834,
      "grad_norm": 2.3513684272766113,
      "learning_rate": 9.904110300831577e-06,
      "loss": 1.224,
      "step": 121
    },
    {
      "epoch": 0.3431786216596343,
      "grad_norm": 2.0586118698120117,
      "learning_rate": 9.901146987955008e-06,
      "loss": 1.1874,
      "step": 122
    },
    {
      "epoch": 0.3459915611814346,
      "grad_norm": 2.517422676086426,
      "learning_rate": 9.898139038007962e-06,
      "loss": 1.2165,
      "step": 123
    },
    {
      "epoch": 0.3488045007032349,
      "grad_norm": 2.1542768478393555,
      "learning_rate": 9.895086478385267e-06,
      "loss": 1.3451,
      "step": 124
    },
    {
      "epoch": 0.35161744022503516,
      "grad_norm": 2.022313356399536,
      "learning_rate": 9.891989336888033e-06,
      "loss": 1.2169,
      "step": 125
    },
    {
      "epoch": 0.35443037974683544,
      "grad_norm": 2.6460540294647217,
      "learning_rate": 9.888847641723394e-06,
      "loss": 1.4583,
      "step": 126
    },
    {
      "epoch": 0.35724331926863573,
      "grad_norm": 2.2727549076080322,
      "learning_rate": 9.88566142150426e-06,
      "loss": 1.2032,
      "step": 127
    },
    {
      "epoch": 0.360056258790436,
      "grad_norm": 2.1075050830841064,
      "learning_rate": 9.88243070524905e-06,
      "loss": 1.1943,
      "step": 128
    },
    {
      "epoch": 0.3628691983122363,
      "grad_norm": 2.352522611618042,
      "learning_rate": 9.87915552238143e-06,
      "loss": 1.3522,
      "step": 129
    },
    {
      "epoch": 0.3656821378340366,
      "grad_norm": 2.469947338104248,
      "learning_rate": 9.87583590273004e-06,
      "loss": 1.1493,
      "step": 130
    },
    {
      "epoch": 0.36849507735583686,
      "grad_norm": 2.1671838760375977,
      "learning_rate": 9.872471876528235e-06,
      "loss": 1.3792,
      "step": 131
    },
    {
      "epoch": 0.37130801687763715,
      "grad_norm": 2.235957622528076,
      "learning_rate": 9.869063474413798e-06,
      "loss": 1.3672,
      "step": 132
    },
    {
      "epoch": 0.37412095639943743,
      "grad_norm": 2.241083860397339,
      "learning_rate": 9.865610727428661e-06,
      "loss": 1.1784,
      "step": 133
    },
    {
      "epoch": 0.3769338959212377,
      "grad_norm": 2.1455912590026855,
      "learning_rate": 9.862113667018628e-06,
      "loss": 1.2497,
      "step": 134
    },
    {
      "epoch": 0.379746835443038,
      "grad_norm": 2.49971342086792,
      "learning_rate": 9.858572325033089e-06,
      "loss": 1.4471,
      "step": 135
    },
    {
      "epoch": 0.38255977496483823,
      "grad_norm": 2.6926071643829346,
      "learning_rate": 9.854986733724724e-06,
      "loss": 1.1595,
      "step": 136
    },
    {
      "epoch": 0.3853727144866385,
      "grad_norm": 2.2876596450805664,
      "learning_rate": 9.851356925749218e-06,
      "loss": 1.1668,
      "step": 137
    },
    {
      "epoch": 0.3881856540084388,
      "grad_norm": 2.018536329269409,
      "learning_rate": 9.847682934164948e-06,
      "loss": 1.1446,
      "step": 138
    },
    {
      "epoch": 0.3909985935302391,
      "grad_norm": 2.660203456878662,
      "learning_rate": 9.843964792432701e-06,
      "loss": 1.3112,
      "step": 139
    },
    {
      "epoch": 0.39381153305203936,
      "grad_norm": 2.4841043949127197,
      "learning_rate": 9.840202534415358e-06,
      "loss": 1.3684,
      "step": 140
    },
    {
      "epoch": 0.39662447257383965,
      "grad_norm": 2.1534616947174072,
      "learning_rate": 9.836396194377587e-06,
      "loss": 1.2795,
      "step": 141
    },
    {
      "epoch": 0.39943741209563993,
      "grad_norm": 2.2963688373565674,
      "learning_rate": 9.832545806985532e-06,
      "loss": 1.298,
      "step": 142
    },
    {
      "epoch": 0.4022503516174402,
      "grad_norm": 2.911456346511841,
      "learning_rate": 9.828651407306495e-06,
      "loss": 1.3186,
      "step": 143
    },
    {
      "epoch": 0.4050632911392405,
      "grad_norm": 3.0715761184692383,
      "learning_rate": 9.824713030808626e-06,
      "loss": 1.378,
      "step": 144
    },
    {
      "epoch": 0.4078762306610408,
      "grad_norm": 2.150747537612915,
      "learning_rate": 9.820730713360585e-06,
      "loss": 1.1809,
      "step": 145
    },
    {
      "epoch": 0.41068917018284107,
      "grad_norm": 2.1824264526367188,
      "learning_rate": 9.816704491231226e-06,
      "loss": 1.0561,
      "step": 146
    },
    {
      "epoch": 0.41350210970464135,
      "grad_norm": 2.2817230224609375,
      "learning_rate": 9.812634401089265e-06,
      "loss": 1.2782,
      "step": 147
    },
    {
      "epoch": 0.41631504922644164,
      "grad_norm": 2.196108341217041,
      "learning_rate": 9.808520480002942e-06,
      "loss": 1.1196,
      "step": 148
    },
    {
      "epoch": 0.4191279887482419,
      "grad_norm": 2.3351998329162598,
      "learning_rate": 9.804362765439688e-06,
      "loss": 1.4752,
      "step": 149
    },
    {
      "epoch": 0.4219409282700422,
      "grad_norm": 1.8851360082626343,
      "learning_rate": 9.800161295265782e-06,
      "loss": 1.1407,
      "step": 150
    },
    {
      "epoch": 0.4219409282700422,
      "eval_loss": 0.7094771862030029,
      "eval_runtime": 2.855,
      "eval_samples_per_second": 9.107,
      "eval_steps_per_second": 1.401,
      "step": 150
    },
    {
      "epoch": 0.4219409282700422,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 615.25,
      "eval_avg_mem_token_accuracy": 0.23404255319148937,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.007896625987078248,
      "eval_avg_mem_token_rate": 0.5559768509279585,
      "eval_avg_mem_token_recall(Accuracy)": 0.23404255319148937,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 150,
      "eval_loss": 0.7094771862030029,
      "eval_num_samples": 30,
      "eval_runtime": 2.855,
      "eval_samples_per_second": 9.107,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.401,
      "eval_total_correct_count": 66,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8358,
      "step": 150
    },
    {
      "epoch": 0.4247538677918425,
      "grad_norm": 2.1879961490631104,
      "learning_rate": 9.795916107746009e-06,
      "loss": 1.1632,
      "step": 151
    },
    {
      "epoch": 0.42756680731364277,
      "grad_norm": 2.7381277084350586,
      "learning_rate": 9.7916272415433e-06,
      "loss": 1.3305,
      "step": 152
    },
    {
      "epoch": 0.43037974683544306,
      "grad_norm": 2.1921334266662598,
      "learning_rate": 9.787294735718397e-06,
      "loss": 1.1759,
      "step": 153
    },
    {
      "epoch": 0.43319268635724334,
      "grad_norm": 2.2524077892303467,
      "learning_rate": 9.782918629729486e-06,
      "loss": 1.1278,
      "step": 154
    },
    {
      "epoch": 0.4360056258790436,
      "grad_norm": 2.3991479873657227,
      "learning_rate": 9.778498963431838e-06,
      "loss": 1.2304,
      "step": 155
    },
    {
      "epoch": 0.4388185654008439,
      "grad_norm": 2.4503281116485596,
      "learning_rate": 9.774035777077452e-06,
      "loss": 1.3168,
      "step": 156
    },
    {
      "epoch": 0.44163150492264414,
      "grad_norm": 2.1630754470825195,
      "learning_rate": 9.769529111314683e-06,
      "loss": 1.1698,
      "step": 157
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 2.1806483268737793,
      "learning_rate": 9.764979007187874e-06,
      "loss": 1.1485,
      "step": 158
    },
    {
      "epoch": 0.4472573839662447,
      "grad_norm": 2.1980652809143066,
      "learning_rate": 9.760385506136982e-06,
      "loss": 1.3419,
      "step": 159
    },
    {
      "epoch": 0.450070323488045,
      "grad_norm": 4.968358039855957,
      "learning_rate": 9.755748649997197e-06,
      "loss": 1.19,
      "step": 160
    },
    {
      "epoch": 0.45288326300984527,
      "grad_norm": 2.15004563331604,
      "learning_rate": 9.751068480998572e-06,
      "loss": 1.2162,
      "step": 161
    },
    {
      "epoch": 0.45569620253164556,
      "grad_norm": 2.2927024364471436,
      "learning_rate": 9.746345041765624e-06,
      "loss": 1.2539,
      "step": 162
    },
    {
      "epoch": 0.45850914205344584,
      "grad_norm": 2.2658493518829346,
      "learning_rate": 9.741578375316953e-06,
      "loss": 1.4352,
      "step": 163
    },
    {
      "epoch": 0.4613220815752461,
      "grad_norm": 2.3411777019500732,
      "learning_rate": 9.736768525064852e-06,
      "loss": 1.4317,
      "step": 164
    },
    {
      "epoch": 0.4641350210970464,
      "grad_norm": 2.0097508430480957,
      "learning_rate": 9.731915534814912e-06,
      "loss": 1.1761,
      "step": 165
    },
    {
      "epoch": 0.4669479606188467,
      "grad_norm": 2.312138080596924,
      "learning_rate": 9.727019448765613e-06,
      "loss": 1.2183,
      "step": 166
    },
    {
      "epoch": 0.469760900140647,
      "grad_norm": 2.3369953632354736,
      "learning_rate": 9.722080311507938e-06,
      "loss": 1.3209,
      "step": 167
    },
    {
      "epoch": 0.47257383966244726,
      "grad_norm": 2.1543290615081787,
      "learning_rate": 9.717098168024948e-06,
      "loss": 1.2806,
      "step": 168
    },
    {
      "epoch": 0.47538677918424754,
      "grad_norm": 2.3597400188446045,
      "learning_rate": 9.712073063691388e-06,
      "loss": 1.2461,
      "step": 169
    },
    {
      "epoch": 0.4781997187060478,
      "grad_norm": 2.410320520401001,
      "learning_rate": 9.707005044273268e-06,
      "loss": 1.3153,
      "step": 170
    },
    {
      "epoch": 0.4810126582278481,
      "grad_norm": 2.5447475910186768,
      "learning_rate": 9.701894155927445e-06,
      "loss": 1.3782,
      "step": 171
    },
    {
      "epoch": 0.4838255977496484,
      "grad_norm": 2.600811004638672,
      "learning_rate": 9.696740445201202e-06,
      "loss": 1.5061,
      "step": 172
    },
    {
      "epoch": 0.4866385372714487,
      "grad_norm": 2.225473642349243,
      "learning_rate": 9.691543959031831e-06,
      "loss": 1.3204,
      "step": 173
    },
    {
      "epoch": 0.48945147679324896,
      "grad_norm": 2.2354350090026855,
      "learning_rate": 9.68630474474619e-06,
      "loss": 1.3342,
      "step": 174
    },
    {
      "epoch": 0.49226441631504925,
      "grad_norm": 2.4795658588409424,
      "learning_rate": 9.681022850060297e-06,
      "loss": 1.2004,
      "step": 175
    },
    {
      "epoch": 0.49507735583684953,
      "grad_norm": 2.111879348754883,
      "learning_rate": 9.675698323078865e-06,
      "loss": 1.0086,
      "step": 176
    },
    {
      "epoch": 0.4978902953586498,
      "grad_norm": 2.0163023471832275,
      "learning_rate": 9.67033121229489e-06,
      "loss": 1.0946,
      "step": 177
    },
    {
      "epoch": 0.5007032348804501,
      "grad_norm": 2.2219393253326416,
      "learning_rate": 9.664921566589195e-06,
      "loss": 1.3935,
      "step": 178
    },
    {
      "epoch": 0.5035161744022504,
      "grad_norm": 2.128089189529419,
      "learning_rate": 9.659469435229992e-06,
      "loss": 1.1659,
      "step": 179
    },
    {
      "epoch": 0.5063291139240507,
      "grad_norm": 2.5307302474975586,
      "learning_rate": 9.653974867872424e-06,
      "loss": 1.1473,
      "step": 180
    },
    {
      "epoch": 0.509142053445851,
      "grad_norm": 2.2050728797912598,
      "learning_rate": 9.648437914558126e-06,
      "loss": 1.3126,
      "step": 181
    },
    {
      "epoch": 0.5119549929676512,
      "grad_norm": 2.1602675914764404,
      "learning_rate": 9.642858625714753e-06,
      "loss": 1.0508,
      "step": 182
    },
    {
      "epoch": 0.5147679324894515,
      "grad_norm": 2.3411359786987305,
      "learning_rate": 9.637237052155541e-06,
      "loss": 1.2805,
      "step": 183
    },
    {
      "epoch": 0.5175808720112518,
      "grad_norm": 2.3061892986297607,
      "learning_rate": 9.631573245078823e-06,
      "loss": 1.324,
      "step": 184
    },
    {
      "epoch": 0.5203938115330521,
      "grad_norm": 2.0462026596069336,
      "learning_rate": 9.625867256067577e-06,
      "loss": 1.2376,
      "step": 185
    },
    {
      "epoch": 0.5232067510548524,
      "grad_norm": 2.2104408740997314,
      "learning_rate": 9.620119137088954e-06,
      "loss": 1.2963,
      "step": 186
    },
    {
      "epoch": 0.5260196905766527,
      "grad_norm": 2.5065929889678955,
      "learning_rate": 9.614328940493797e-06,
      "loss": 1.3735,
      "step": 187
    },
    {
      "epoch": 0.5288326300984529,
      "grad_norm": 2.349320888519287,
      "learning_rate": 9.608496719016176e-06,
      "loss": 1.2742,
      "step": 188
    },
    {
      "epoch": 0.5316455696202531,
      "grad_norm": 2.519850730895996,
      "learning_rate": 9.602622525772895e-06,
      "loss": 1.4212,
      "step": 189
    },
    {
      "epoch": 0.5344585091420534,
      "grad_norm": 2.0543527603149414,
      "learning_rate": 9.596706414263022e-06,
      "loss": 1.1391,
      "step": 190
    },
    {
      "epoch": 0.5372714486638537,
      "grad_norm": 2.289496898651123,
      "learning_rate": 9.59074843836739e-06,
      "loss": 1.2401,
      "step": 191
    },
    {
      "epoch": 0.540084388185654,
      "grad_norm": 2.350924491882324,
      "learning_rate": 9.584748652348107e-06,
      "loss": 1.3712,
      "step": 192
    },
    {
      "epoch": 0.5428973277074542,
      "grad_norm": 2.23681640625,
      "learning_rate": 9.578707110848077e-06,
      "loss": 1.1505,
      "step": 193
    },
    {
      "epoch": 0.5457102672292545,
      "grad_norm": 2.008516788482666,
      "learning_rate": 9.572623868890482e-06,
      "loss": 1.0241,
      "step": 194
    },
    {
      "epoch": 0.5485232067510548,
      "grad_norm": 2.3972671031951904,
      "learning_rate": 9.566498981878289e-06,
      "loss": 1.4334,
      "step": 195
    },
    {
      "epoch": 0.5513361462728551,
      "grad_norm": 1.9378750324249268,
      "learning_rate": 9.560332505593754e-06,
      "loss": 1.0679,
      "step": 196
    },
    {
      "epoch": 0.5541490857946554,
      "grad_norm": 2.3928143978118896,
      "learning_rate": 9.554124496197899e-06,
      "loss": 1.0903,
      "step": 197
    },
    {
      "epoch": 0.5569620253164557,
      "grad_norm": 2.4164905548095703,
      "learning_rate": 9.547875010230009e-06,
      "loss": 1.3779,
      "step": 198
    },
    {
      "epoch": 0.559774964838256,
      "grad_norm": 2.0729787349700928,
      "learning_rate": 9.54158410460712e-06,
      "loss": 1.114,
      "step": 199
    },
    {
      "epoch": 0.5625879043600562,
      "grad_norm": 1.9305024147033691,
      "learning_rate": 9.535251836623491e-06,
      "loss": 1.1579,
      "step": 200
    },
    {
      "epoch": 0.5625879043600562,
      "eval_loss": 0.6872708797454834,
      "eval_runtime": 2.8553,
      "eval_samples_per_second": 9.106,
      "eval_steps_per_second": 1.401,
      "step": 200
    },
    {
      "epoch": 0.5625879043600562,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 608.5,
      "eval_avg_mem_token_accuracy": 0.2198581560283688,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.007418930238123729,
      "eval_avg_mem_token_rate": 0.5559103306060001,
      "eval_avg_mem_token_recall(Accuracy)": 0.2198581560283688,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 200,
      "eval_loss": 0.6872708797454834,
      "eval_num_samples": 30,
      "eval_runtime": 2.8553,
      "eval_samples_per_second": 9.106,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.401,
      "eval_total_correct_count": 62,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8357,
      "step": 200
    },
    {
      "epoch": 0.5654008438818565,
      "grad_norm": 2.2860162258148193,
      "learning_rate": 9.528878263950094e-06,
      "loss": 1.2892,
      "step": 201
    },
    {
      "epoch": 0.5682137834036568,
      "grad_norm": 2.314282178878784,
      "learning_rate": 9.522463444634075e-06,
      "loss": 1.0782,
      "step": 202
    },
    {
      "epoch": 0.5710267229254571,
      "grad_norm": 15.191813468933105,
      "learning_rate": 9.516007437098238e-06,
      "loss": 1.2559,
      "step": 203
    },
    {
      "epoch": 0.5738396624472574,
      "grad_norm": 1.9443162679672241,
      "learning_rate": 9.509510300140506e-06,
      "loss": 0.8679,
      "step": 204
    },
    {
      "epoch": 0.5766526019690577,
      "grad_norm": 2.5310826301574707,
      "learning_rate": 9.502972092933384e-06,
      "loss": 1.2779,
      "step": 205
    },
    {
      "epoch": 0.5794655414908579,
      "grad_norm": 2.4394469261169434,
      "learning_rate": 9.496392875023433e-06,
      "loss": 1.1331,
      "step": 206
    },
    {
      "epoch": 0.5822784810126582,
      "grad_norm": 2.40698504447937,
      "learning_rate": 9.489772706330707e-06,
      "loss": 1.4669,
      "step": 207
    },
    {
      "epoch": 0.5850914205344585,
      "grad_norm": 2.0934903621673584,
      "learning_rate": 9.483111647148223e-06,
      "loss": 1.2372,
      "step": 208
    },
    {
      "epoch": 0.5879043600562588,
      "grad_norm": 2.2789113521575928,
      "learning_rate": 9.476409758141404e-06,
      "loss": 1.3838,
      "step": 209
    },
    {
      "epoch": 0.5907172995780591,
      "grad_norm": 2.0439610481262207,
      "learning_rate": 9.469667100347539e-06,
      "loss": 1.1897,
      "step": 210
    },
    {
      "epoch": 0.5935302390998594,
      "grad_norm": 2.5594871044158936,
      "learning_rate": 9.462883735175205e-06,
      "loss": 1.2361,
      "step": 211
    },
    {
      "epoch": 0.5963431786216596,
      "grad_norm": 2.417461395263672,
      "learning_rate": 9.45605972440373e-06,
      "loss": 1.3818,
      "step": 212
    },
    {
      "epoch": 0.5991561181434599,
      "grad_norm": 2.030989170074463,
      "learning_rate": 9.449195130182614e-06,
      "loss": 1.2072,
      "step": 213
    },
    {
      "epoch": 0.6019690576652602,
      "grad_norm": 1.9220385551452637,
      "learning_rate": 9.442290015030974e-06,
      "loss": 1.1057,
      "step": 214
    },
    {
      "epoch": 0.6047819971870605,
      "grad_norm": 2.4362001419067383,
      "learning_rate": 9.43534444183697e-06,
      "loss": 1.3472,
      "step": 215
    },
    {
      "epoch": 0.6075949367088608,
      "grad_norm": 1.9925367832183838,
      "learning_rate": 9.42835847385723e-06,
      "loss": 1.2851,
      "step": 216
    },
    {
      "epoch": 0.6104078762306611,
      "grad_norm": 2.3182199001312256,
      "learning_rate": 9.42133217471628e-06,
      "loss": 1.2026,
      "step": 217
    },
    {
      "epoch": 0.6132208157524613,
      "grad_norm": 2.7779831886291504,
      "learning_rate": 9.414265608405956e-06,
      "loss": 1.2488,
      "step": 218
    },
    {
      "epoch": 0.6160337552742616,
      "grad_norm": 2.6299376487731934,
      "learning_rate": 9.407158839284836e-06,
      "loss": 1.3019,
      "step": 219
    },
    {
      "epoch": 0.6188466947960619,
      "grad_norm": 3.4749839305877686,
      "learning_rate": 9.40001193207763e-06,
      "loss": 1.4892,
      "step": 220
    },
    {
      "epoch": 0.6216596343178622,
      "grad_norm": 2.2574360370635986,
      "learning_rate": 9.392824951874618e-06,
      "loss": 1.2897,
      "step": 221
    },
    {
      "epoch": 0.6244725738396625,
      "grad_norm": 2.16740083694458,
      "learning_rate": 9.385597964131033e-06,
      "loss": 1.2792,
      "step": 222
    },
    {
      "epoch": 0.6272855133614628,
      "grad_norm": 2.0155792236328125,
      "learning_rate": 9.378331034666483e-06,
      "loss": 1.2584,
      "step": 223
    },
    {
      "epoch": 0.630098452883263,
      "grad_norm": 2.4452121257781982,
      "learning_rate": 9.371024229664342e-06,
      "loss": 1.4524,
      "step": 224
    },
    {
      "epoch": 0.6329113924050633,
      "grad_norm": 2.295438766479492,
      "learning_rate": 9.363677615671148e-06,
      "loss": 1.2677,
      "step": 225
    },
    {
      "epoch": 0.6357243319268636,
      "grad_norm": 2.1375696659088135,
      "learning_rate": 9.356291259596e-06,
      "loss": 1.265,
      "step": 226
    },
    {
      "epoch": 0.6385372714486639,
      "grad_norm": 2.3946800231933594,
      "learning_rate": 9.348865228709947e-06,
      "loss": 1.3528,
      "step": 227
    },
    {
      "epoch": 0.6413502109704642,
      "grad_norm": 2.332805871963501,
      "learning_rate": 9.341399590645373e-06,
      "loss": 1.3119,
      "step": 228
    },
    {
      "epoch": 0.6441631504922645,
      "grad_norm": 2.3480770587921143,
      "learning_rate": 9.333894413395388e-06,
      "loss": 1.33,
      "step": 229
    },
    {
      "epoch": 0.6469760900140648,
      "grad_norm": 2.432349681854248,
      "learning_rate": 9.326349765313199e-06,
      "loss": 1.1957,
      "step": 230
    },
    {
      "epoch": 0.6497890295358649,
      "grad_norm": 2.0219781398773193,
      "learning_rate": 9.318765715111497e-06,
      "loss": 1.2202,
      "step": 231
    },
    {
      "epoch": 0.6526019690576652,
      "grad_norm": 2.8865296840667725,
      "learning_rate": 9.311142331861821e-06,
      "loss": 1.5149,
      "step": 232
    },
    {
      "epoch": 0.6554149085794655,
      "grad_norm": 2.1823160648345947,
      "learning_rate": 9.303479684993943e-06,
      "loss": 1.2677,
      "step": 233
    },
    {
      "epoch": 0.6582278481012658,
      "grad_norm": 2.011133909225464,
      "learning_rate": 9.295777844295219e-06,
      "loss": 1.0202,
      "step": 234
    },
    {
      "epoch": 0.6610407876230661,
      "grad_norm": 2.2680437564849854,
      "learning_rate": 9.288036879909967e-06,
      "loss": 1.2755,
      "step": 235
    },
    {
      "epoch": 0.6638537271448663,
      "grad_norm": 2.297574520111084,
      "learning_rate": 9.280256862338822e-06,
      "loss": 1.2567,
      "step": 236
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 2.2774109840393066,
      "learning_rate": 9.272437862438095e-06,
      "loss": 1.1645,
      "step": 237
    },
    {
      "epoch": 0.6694796061884669,
      "grad_norm": 2.4613051414489746,
      "learning_rate": 9.264579951419126e-06,
      "loss": 1.3841,
      "step": 238
    },
    {
      "epoch": 0.6722925457102672,
      "grad_norm": 2.2511165142059326,
      "learning_rate": 9.256683200847638e-06,
      "loss": 1.2692,
      "step": 239
    },
    {
      "epoch": 0.6751054852320675,
      "grad_norm": 2.209132432937622,
      "learning_rate": 9.248747682643085e-06,
      "loss": 1.2905,
      "step": 240
    },
    {
      "epoch": 0.6779184247538678,
      "grad_norm": 2.3346107006073,
      "learning_rate": 9.240773469077994e-06,
      "loss": 1.189,
      "step": 241
    },
    {
      "epoch": 0.680731364275668,
      "grad_norm": 2.3697586059570312,
      "learning_rate": 9.232760632777311e-06,
      "loss": 1.236,
      "step": 242
    },
    {
      "epoch": 0.6835443037974683,
      "grad_norm": 2.7163619995117188,
      "learning_rate": 9.22470924671774e-06,
      "loss": 1.3411,
      "step": 243
    },
    {
      "epoch": 0.6863572433192686,
      "grad_norm": 2.210554838180542,
      "learning_rate": 9.216619384227068e-06,
      "loss": 1.2791,
      "step": 244
    },
    {
      "epoch": 0.6891701828410689,
      "grad_norm": 2.2112317085266113,
      "learning_rate": 9.208491118983515e-06,
      "loss": 1.2984,
      "step": 245
    },
    {
      "epoch": 0.6919831223628692,
      "grad_norm": 2.247898817062378,
      "learning_rate": 9.200324525015046e-06,
      "loss": 1.2766,
      "step": 246
    },
    {
      "epoch": 0.6947960618846695,
      "grad_norm": 2.2993924617767334,
      "learning_rate": 9.192119676698703e-06,
      "loss": 1.1908,
      "step": 247
    },
    {
      "epoch": 0.6976090014064698,
      "grad_norm": 2.4729530811309814,
      "learning_rate": 9.183876648759937e-06,
      "loss": 1.364,
      "step": 248
    },
    {
      "epoch": 0.70042194092827,
      "grad_norm": 2.201533794403076,
      "learning_rate": 9.175595516271911e-06,
      "loss": 1.344,
      "step": 249
    },
    {
      "epoch": 0.7032348804500703,
      "grad_norm": 2.3106961250305176,
      "learning_rate": 9.167276354654827e-06,
      "loss": 1.313,
      "step": 250
    },
    {
      "epoch": 0.7032348804500703,
      "eval_loss": 0.6741299033164978,
      "eval_runtime": 2.8499,
      "eval_samples_per_second": 9.123,
      "eval_steps_per_second": 1.404,
      "step": 250
    },
    {
      "epoch": 0.7032348804500703,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 590.625,
      "eval_avg_mem_token_accuracy": 0.23049645390070922,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.007840772014475271,
      "eval_avg_mem_token_rate": 0.5514534690347901,
      "eval_avg_mem_token_recall(Accuracy)": 0.23049645390070922,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 250,
      "eval_loss": 0.6741299033164978,
      "eval_num_samples": 30,
      "eval_runtime": 2.8499,
      "eval_samples_per_second": 9.123,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.404,
      "eval_total_correct_count": 65,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8290,
      "step": 250
    },
    {
      "epoch": 0.7060478199718706,
      "grad_norm": 2.2657763957977295,
      "learning_rate": 9.158919239675237e-06,
      "loss": 0.9924,
      "step": 251
    },
    {
      "epoch": 0.7088607594936709,
      "grad_norm": 2.8294458389282227,
      "learning_rate": 9.150524247445346e-06,
      "loss": 1.5447,
      "step": 252
    },
    {
      "epoch": 0.7116736990154712,
      "grad_norm": 2.327502489089966,
      "learning_rate": 9.14209145442234e-06,
      "loss": 1.3784,
      "step": 253
    },
    {
      "epoch": 0.7144866385372715,
      "grad_norm": 2.2193102836608887,
      "learning_rate": 9.133620937407656e-06,
      "loss": 1.2874,
      "step": 254
    },
    {
      "epoch": 0.7172995780590717,
      "grad_norm": 2.400413990020752,
      "learning_rate": 9.125112773546315e-06,
      "loss": 1.2711,
      "step": 255
    },
    {
      "epoch": 0.720112517580872,
      "grad_norm": 2.1976544857025146,
      "learning_rate": 9.1165670403262e-06,
      "loss": 1.399,
      "step": 256
    },
    {
      "epoch": 0.7229254571026723,
      "grad_norm": 2.2996156215667725,
      "learning_rate": 9.107983815577359e-06,
      "loss": 1.4082,
      "step": 257
    },
    {
      "epoch": 0.7257383966244726,
      "grad_norm": 2.307288408279419,
      "learning_rate": 9.09936317747129e-06,
      "loss": 1.275,
      "step": 258
    },
    {
      "epoch": 0.7285513361462729,
      "grad_norm": 2.204585552215576,
      "learning_rate": 9.090705204520231e-06,
      "loss": 1.3542,
      "step": 259
    },
    {
      "epoch": 0.7313642756680732,
      "grad_norm": 2.3391809463500977,
      "learning_rate": 9.082009975576452e-06,
      "loss": 1.231,
      "step": 260
    },
    {
      "epoch": 0.7341772151898734,
      "grad_norm": 2.5154929161071777,
      "learning_rate": 9.073277569831526e-06,
      "loss": 1.3549,
      "step": 261
    },
    {
      "epoch": 0.7369901547116737,
      "grad_norm": 2.1306750774383545,
      "learning_rate": 9.064508066815614e-06,
      "loss": 1.1,
      "step": 262
    },
    {
      "epoch": 0.739803094233474,
      "grad_norm": 1.9493396282196045,
      "learning_rate": 9.05570154639674e-06,
      "loss": 1.0767,
      "step": 263
    },
    {
      "epoch": 0.7426160337552743,
      "grad_norm": 2.2229723930358887,
      "learning_rate": 9.046858088780064e-06,
      "loss": 1.1945,
      "step": 264
    },
    {
      "epoch": 0.7454289732770746,
      "grad_norm": 2.0410044193267822,
      "learning_rate": 9.03797777450715e-06,
      "loss": 1.2284,
      "step": 265
    },
    {
      "epoch": 0.7482419127988749,
      "grad_norm": 2.533954381942749,
      "learning_rate": 9.02906068445523e-06,
      "loss": 1.4345,
      "step": 266
    },
    {
      "epoch": 0.7510548523206751,
      "grad_norm": 2.324066162109375,
      "learning_rate": 9.020106899836471e-06,
      "loss": 1.2716,
      "step": 267
    },
    {
      "epoch": 0.7538677918424754,
      "grad_norm": 2.0535366535186768,
      "learning_rate": 9.011116502197243e-06,
      "loss": 1.1823,
      "step": 268
    },
    {
      "epoch": 0.7566807313642757,
      "grad_norm": 2.3328094482421875,
      "learning_rate": 9.002089573417356e-06,
      "loss": 1.2959,
      "step": 269
    },
    {
      "epoch": 0.759493670886076,
      "grad_norm": 2.3262429237365723,
      "learning_rate": 8.993026195709337e-06,
      "loss": 0.965,
      "step": 270
    },
    {
      "epoch": 0.7623066104078763,
      "grad_norm": 2.247913122177124,
      "learning_rate": 8.983926451617664e-06,
      "loss": 1.291,
      "step": 271
    },
    {
      "epoch": 0.7651195499296765,
      "grad_norm": 2.140726089477539,
      "learning_rate": 8.974790424018022e-06,
      "loss": 1.2708,
      "step": 272
    },
    {
      "epoch": 0.7679324894514767,
      "grad_norm": 2.0828731060028076,
      "learning_rate": 8.96561819611655e-06,
      "loss": 1.2937,
      "step": 273
    },
    {
      "epoch": 0.770745428973277,
      "grad_norm": 2.237555742263794,
      "learning_rate": 8.956409851449076e-06,
      "loss": 1.1241,
      "step": 274
    },
    {
      "epoch": 0.7735583684950773,
      "grad_norm": 1.906575083732605,
      "learning_rate": 8.947165473880364e-06,
      "loss": 1.0149,
      "step": 275
    },
    {
      "epoch": 0.7763713080168776,
      "grad_norm": 2.204448699951172,
      "learning_rate": 8.937885147603345e-06,
      "loss": 1.2036,
      "step": 276
    },
    {
      "epoch": 0.7791842475386779,
      "grad_norm": 2.151160717010498,
      "learning_rate": 8.928568957138356e-06,
      "loss": 1.2992,
      "step": 277
    },
    {
      "epoch": 0.7819971870604782,
      "grad_norm": 2.286642551422119,
      "learning_rate": 8.919216987332357e-06,
      "loss": 1.2701,
      "step": 278
    },
    {
      "epoch": 0.7848101265822784,
      "grad_norm": 3.3560984134674072,
      "learning_rate": 8.909829323358177e-06,
      "loss": 1.3486,
      "step": 279
    },
    {
      "epoch": 0.7876230661040787,
      "grad_norm": 1.9844144582748413,
      "learning_rate": 8.900406050713723e-06,
      "loss": 0.967,
      "step": 280
    },
    {
      "epoch": 0.790436005625879,
      "grad_norm": 2.1631999015808105,
      "learning_rate": 8.89094725522121e-06,
      "loss": 1.2139,
      "step": 281
    },
    {
      "epoch": 0.7932489451476793,
      "grad_norm": 2.1446194648742676,
      "learning_rate": 8.881453023026373e-06,
      "loss": 1.2743,
      "step": 282
    },
    {
      "epoch": 0.7960618846694796,
      "grad_norm": 1.9020416736602783,
      "learning_rate": 8.871923440597694e-06,
      "loss": 1.0834,
      "step": 283
    },
    {
      "epoch": 0.7988748241912799,
      "grad_norm": 2.1618247032165527,
      "learning_rate": 8.862358594725595e-06,
      "loss": 1.151,
      "step": 284
    },
    {
      "epoch": 0.8016877637130801,
      "grad_norm": 2.3456199169158936,
      "learning_rate": 8.852758572521666e-06,
      "loss": 1.206,
      "step": 285
    },
    {
      "epoch": 0.8045007032348804,
      "grad_norm": 2.2839531898498535,
      "learning_rate": 8.843123461417864e-06,
      "loss": 1.248,
      "step": 286
    },
    {
      "epoch": 0.8073136427566807,
      "grad_norm": 2.277515411376953,
      "learning_rate": 8.833453349165713e-06,
      "loss": 1.3061,
      "step": 287
    },
    {
      "epoch": 0.810126582278481,
      "grad_norm": 2.3145205974578857,
      "learning_rate": 8.823748323835517e-06,
      "loss": 1.4309,
      "step": 288
    },
    {
      "epoch": 0.8129395218002813,
      "grad_norm": 2.298470973968506,
      "learning_rate": 8.814008473815542e-06,
      "loss": 1.1581,
      "step": 289
    },
    {
      "epoch": 0.8157524613220816,
      "grad_norm": 2.4578652381896973,
      "learning_rate": 8.804233887811224e-06,
      "loss": 1.328,
      "step": 290
    },
    {
      "epoch": 0.8185654008438819,
      "grad_norm": 2.162040948867798,
      "learning_rate": 8.794424654844352e-06,
      "loss": 1.041,
      "step": 291
    },
    {
      "epoch": 0.8213783403656821,
      "grad_norm": 2.1940865516662598,
      "learning_rate": 8.784580864252266e-06,
      "loss": 1.2024,
      "step": 292
    },
    {
      "epoch": 0.8241912798874824,
      "grad_norm": 2.127418041229248,
      "learning_rate": 8.774702605687036e-06,
      "loss": 1.1357,
      "step": 293
    },
    {
      "epoch": 0.8270042194092827,
      "grad_norm": 2.259040355682373,
      "learning_rate": 8.764789969114647e-06,
      "loss": 1.2494,
      "step": 294
    },
    {
      "epoch": 0.829817158931083,
      "grad_norm": 2.398115634918213,
      "learning_rate": 8.754843044814183e-06,
      "loss": 1.3409,
      "step": 295
    },
    {
      "epoch": 0.8326300984528833,
      "grad_norm": 1.94135320186615,
      "learning_rate": 8.744861923377e-06,
      "loss": 1.0011,
      "step": 296
    },
    {
      "epoch": 0.8354430379746836,
      "grad_norm": 2.3360581398010254,
      "learning_rate": 8.734846695705912e-06,
      "loss": 1.3973,
      "step": 297
    },
    {
      "epoch": 0.8382559774964838,
      "grad_norm": 2.0555343627929688,
      "learning_rate": 8.724797453014342e-06,
      "loss": 1.0796,
      "step": 298
    },
    {
      "epoch": 0.8410689170182841,
      "grad_norm": 2.26999831199646,
      "learning_rate": 8.714714286825512e-06,
      "loss": 1.2569,
      "step": 299
    },
    {
      "epoch": 0.8438818565400844,
      "grad_norm": 2.004324197769165,
      "learning_rate": 8.704597288971598e-06,
      "loss": 1.1934,
      "step": 300
    },
    {
      "epoch": 0.8438818565400844,
      "eval_loss": 0.6666268110275269,
      "eval_runtime": 2.761,
      "eval_samples_per_second": 9.417,
      "eval_steps_per_second": 1.449,
      "step": 300
    },
    {
      "epoch": 0.8438818565400844,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 590.375,
      "eval_avg_mem_token_accuracy": 0.22340425531914893,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.007591276057356308,
      "eval_avg_mem_token_rate": 0.5520521519324153,
      "eval_avg_mem_token_recall(Accuracy)": 0.22340425531914893,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 300,
      "eval_loss": 0.6666268110275269,
      "eval_num_samples": 30,
      "eval_runtime": 2.761,
      "eval_samples_per_second": 9.417,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.449,
      "eval_total_correct_count": 63,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8299,
      "step": 300
    },
    {
      "epoch": 0.8466947960618847,
      "grad_norm": 2.1731441020965576,
      "learning_rate": 8.6944465515929e-06,
      "loss": 1.1642,
      "step": 301
    },
    {
      "epoch": 0.849507735583685,
      "grad_norm": 1.9805549383163452,
      "learning_rate": 8.684262167136999e-06,
      "loss": 1.1963,
      "step": 302
    },
    {
      "epoch": 0.8523206751054853,
      "grad_norm": 1.985160231590271,
      "learning_rate": 8.674044228357915e-06,
      "loss": 1.0271,
      "step": 303
    },
    {
      "epoch": 0.8551336146272855,
      "grad_norm": 2.233934164047241,
      "learning_rate": 8.663792828315259e-06,
      "loss": 1.3379,
      "step": 304
    },
    {
      "epoch": 0.8579465541490858,
      "grad_norm": 2.1742870807647705,
      "learning_rate": 8.6535080603734e-06,
      "loss": 1.2982,
      "step": 305
    },
    {
      "epoch": 0.8607594936708861,
      "grad_norm": 2.2393639087677,
      "learning_rate": 8.643190018200595e-06,
      "loss": 1.2925,
      "step": 306
    },
    {
      "epoch": 0.8635724331926864,
      "grad_norm": 2.395679473876953,
      "learning_rate": 8.632838795768149e-06,
      "loss": 1.3027,
      "step": 307
    },
    {
      "epoch": 0.8663853727144867,
      "grad_norm": 1.976331353187561,
      "learning_rate": 8.622454487349556e-06,
      "loss": 1.1242,
      "step": 308
    },
    {
      "epoch": 0.869198312236287,
      "grad_norm": 2.1286044120788574,
      "learning_rate": 8.612037187519635e-06,
      "loss": 1.1868,
      "step": 309
    },
    {
      "epoch": 0.8720112517580872,
      "grad_norm": 2.2224793434143066,
      "learning_rate": 8.601586991153681e-06,
      "loss": 1.2595,
      "step": 310
    },
    {
      "epoch": 0.8748241912798875,
      "grad_norm": 2.282410144805908,
      "learning_rate": 8.591103993426588e-06,
      "loss": 1.1068,
      "step": 311
    },
    {
      "epoch": 0.8776371308016878,
      "grad_norm": 2.000074625015259,
      "learning_rate": 8.580588289811987e-06,
      "loss": 1.1547,
      "step": 312
    },
    {
      "epoch": 0.8804500703234881,
      "grad_norm": 2.108109474182129,
      "learning_rate": 8.570039976081382e-06,
      "loss": 1.1654,
      "step": 313
    },
    {
      "epoch": 0.8832630098452883,
      "grad_norm": 2.2698593139648438,
      "learning_rate": 8.559459148303268e-06,
      "loss": 1.0082,
      "step": 314
    },
    {
      "epoch": 0.8860759493670886,
      "grad_norm": 2.04703426361084,
      "learning_rate": 8.548845902842264e-06,
      "loss": 1.2114,
      "step": 315
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 1.9669705629348755,
      "learning_rate": 8.538200336358227e-06,
      "loss": 1.0822,
      "step": 316
    },
    {
      "epoch": 0.8917018284106891,
      "grad_norm": 2.058732271194458,
      "learning_rate": 8.527522545805386e-06,
      "loss": 1.056,
      "step": 317
    },
    {
      "epoch": 0.8945147679324894,
      "grad_norm": 2.1475107669830322,
      "learning_rate": 8.51681262843144e-06,
      "loss": 1.2073,
      "step": 318
    },
    {
      "epoch": 0.8973277074542897,
      "grad_norm": 1.9537756443023682,
      "learning_rate": 8.50607068177669e-06,
      "loss": 1.026,
      "step": 319
    },
    {
      "epoch": 0.90014064697609,
      "grad_norm": 2.14225172996521,
      "learning_rate": 8.495296803673138e-06,
      "loss": 1.3038,
      "step": 320
    },
    {
      "epoch": 0.9029535864978903,
      "grad_norm": 2.2561981678009033,
      "learning_rate": 8.484491092243603e-06,
      "loss": 1.0576,
      "step": 321
    },
    {
      "epoch": 0.9057665260196905,
      "grad_norm": 1.9777567386627197,
      "learning_rate": 8.473653645900825e-06,
      "loss": 1.1675,
      "step": 322
    },
    {
      "epoch": 0.9085794655414908,
      "grad_norm": 2.2552154064178467,
      "learning_rate": 8.462784563346567e-06,
      "loss": 1.2568,
      "step": 323
    },
    {
      "epoch": 0.9113924050632911,
      "grad_norm": 2.19797945022583,
      "learning_rate": 8.451883943570722e-06,
      "loss": 1.1247,
      "step": 324
    },
    {
      "epoch": 0.9142053445850914,
      "grad_norm": 2.176769971847534,
      "learning_rate": 8.440951885850402e-06,
      "loss": 1.0333,
      "step": 325
    },
    {
      "epoch": 0.9170182841068917,
      "grad_norm": 2.011472463607788,
      "learning_rate": 8.429988489749045e-06,
      "loss": 1.2882,
      "step": 326
    },
    {
      "epoch": 0.919831223628692,
      "grad_norm": 2.276411294937134,
      "learning_rate": 8.418993855115498e-06,
      "loss": 1.2682,
      "step": 327
    },
    {
      "epoch": 0.9226441631504922,
      "grad_norm": 1.9374414682388306,
      "learning_rate": 8.407968082083116e-06,
      "loss": 1.198,
      "step": 328
    },
    {
      "epoch": 0.9254571026722925,
      "grad_norm": 2.0080978870391846,
      "learning_rate": 8.396911271068842e-06,
      "loss": 1.0495,
      "step": 329
    },
    {
      "epoch": 0.9282700421940928,
      "grad_norm": 2.410945415496826,
      "learning_rate": 8.385823522772299e-06,
      "loss": 1.3558,
      "step": 330
    },
    {
      "epoch": 0.9310829817158931,
      "grad_norm": 2.205632448196411,
      "learning_rate": 8.37470493817487e-06,
      "loss": 1.1552,
      "step": 331
    },
    {
      "epoch": 0.9338959212376934,
      "grad_norm": 1.9957945346832275,
      "learning_rate": 8.36355561853878e-06,
      "loss": 1.2074,
      "step": 332
    },
    {
      "epoch": 0.9367088607594937,
      "grad_norm": 1.889917254447937,
      "learning_rate": 8.352375665406171e-06,
      "loss": 0.8613,
      "step": 333
    },
    {
      "epoch": 0.939521800281294,
      "grad_norm": 2.4653337001800537,
      "learning_rate": 8.341165180598182e-06,
      "loss": 1.3945,
      "step": 334
    },
    {
      "epoch": 0.9423347398030942,
      "grad_norm": 2.15743088722229,
      "learning_rate": 8.32992426621401e-06,
      "loss": 1.1899,
      "step": 335
    },
    {
      "epoch": 0.9451476793248945,
      "grad_norm": 2.014369010925293,
      "learning_rate": 8.318653024629999e-06,
      "loss": 1.2004,
      "step": 336
    },
    {
      "epoch": 0.9479606188466948,
      "grad_norm": 2.475370168685913,
      "learning_rate": 8.307351558498692e-06,
      "loss": 1.0919,
      "step": 337
    },
    {
      "epoch": 0.9507735583684951,
      "grad_norm": 2.288590669631958,
      "learning_rate": 8.296019970747901e-06,
      "loss": 1.054,
      "step": 338
    },
    {
      "epoch": 0.9535864978902954,
      "grad_norm": 2.0414512157440186,
      "learning_rate": 8.284658364579771e-06,
      "loss": 1.2336,
      "step": 339
    },
    {
      "epoch": 0.9563994374120957,
      "grad_norm": 2.192631483078003,
      "learning_rate": 8.27326684346984e-06,
      "loss": 1.2078,
      "step": 340
    },
    {
      "epoch": 0.9592123769338959,
      "grad_norm": 2.109923839569092,
      "learning_rate": 8.261845511166092e-06,
      "loss": 1.2295,
      "step": 341
    },
    {
      "epoch": 0.9620253164556962,
      "grad_norm": 1.7825968265533447,
      "learning_rate": 8.250394471688018e-06,
      "loss": 1.1074,
      "step": 342
    },
    {
      "epoch": 0.9648382559774965,
      "grad_norm": 1.9041146039962769,
      "learning_rate": 8.23891382932567e-06,
      "loss": 1.1283,
      "step": 343
    },
    {
      "epoch": 0.9676511954992968,
      "grad_norm": 2.0874454975128174,
      "learning_rate": 8.2274036886387e-06,
      "loss": 1.1228,
      "step": 344
    },
    {
      "epoch": 0.9704641350210971,
      "grad_norm": 1.9520052671432495,
      "learning_rate": 8.215864154455421e-06,
      "loss": 1.2209,
      "step": 345
    },
    {
      "epoch": 0.9732770745428974,
      "grad_norm": 2.6171762943267822,
      "learning_rate": 8.204295331871844e-06,
      "loss": 1.6231,
      "step": 346
    },
    {
      "epoch": 0.9760900140646976,
      "grad_norm": 2.0320959091186523,
      "learning_rate": 8.192697326250722e-06,
      "loss": 1.153,
      "step": 347
    },
    {
      "epoch": 0.9789029535864979,
      "grad_norm": 1.8297227621078491,
      "learning_rate": 8.1810702432206e-06,
      "loss": 0.9717,
      "step": 348
    },
    {
      "epoch": 0.9817158931082982,
      "grad_norm": 2.077699661254883,
      "learning_rate": 8.169414188674829e-06,
      "loss": 0.9804,
      "step": 349
    },
    {
      "epoch": 0.9845288326300985,
      "grad_norm": 2.002263069152832,
      "learning_rate": 8.157729268770636e-06,
      "loss": 1.1233,
      "step": 350
    },
    {
      "epoch": 0.9845288326300985,
      "eval_loss": 0.6594013571739197,
      "eval_runtime": 2.8213,
      "eval_samples_per_second": 9.216,
      "eval_steps_per_second": 1.418,
      "step": 350
    },
    {
      "epoch": 0.9845288326300985,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 591.0,
      "eval_avg_mem_token_accuracy": 0.22340425531914893,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.007495538370017847,
      "eval_avg_mem_token_rate": 0.5591033060600014,
      "eval_avg_mem_token_recall(Accuracy)": 0.22340425531914893,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 350,
      "eval_loss": 0.6594013571739197,
      "eval_num_samples": 30,
      "eval_runtime": 2.8213,
      "eval_samples_per_second": 9.216,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.418,
      "eval_total_correct_count": 63,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8405,
      "step": 350
    },
    {
      "epoch": 0.9873417721518988,
      "grad_norm": 2.112032890319824,
      "learning_rate": 8.146015589928123e-06,
      "loss": 1.1559,
      "step": 351
    },
    {
      "epoch": 0.9901547116736991,
      "grad_norm": 2.227578639984131,
      "learning_rate": 8.134273258829322e-06,
      "loss": 1.2947,
      "step": 352
    },
    {
      "epoch": 0.9929676511954993,
      "grad_norm": 2.0214011669158936,
      "learning_rate": 8.122502382417211e-06,
      "loss": 1.3415,
      "step": 353
    },
    {
      "epoch": 0.9957805907172996,
      "grad_norm": 2.176740884780884,
      "learning_rate": 8.110703067894747e-06,
      "loss": 1.3129,
      "step": 354
    },
    {
      "epoch": 0.9985935302390999,
      "grad_norm": 1.9748849868774414,
      "learning_rate": 8.098875422723884e-06,
      "loss": 1.0268,
      "step": 355
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.5412670373916626,
      "learning_rate": 8.087019554624595e-06,
      "loss": 0.657,
      "step": 356
    },
    {
      "epoch": 1.0028129395218002,
      "grad_norm": 2.013446092605591,
      "learning_rate": 8.075135571573898e-06,
      "loss": 1.1009,
      "step": 357
    },
    {
      "epoch": 1.0056258790436006,
      "grad_norm": 2.034468412399292,
      "learning_rate": 8.06322358180486e-06,
      "loss": 1.1514,
      "step": 358
    },
    {
      "epoch": 1.0084388185654007,
      "grad_norm": 2.1513798236846924,
      "learning_rate": 8.051283693805624e-06,
      "loss": 1.1312,
      "step": 359
    },
    {
      "epoch": 1.0112517580872011,
      "grad_norm": 1.8825079202651978,
      "learning_rate": 8.039316016318415e-06,
      "loss": 0.9748,
      "step": 360
    },
    {
      "epoch": 1.0140646976090013,
      "grad_norm": 2.040106773376465,
      "learning_rate": 8.027320658338547e-06,
      "loss": 1.2061,
      "step": 361
    },
    {
      "epoch": 1.0168776371308017,
      "grad_norm": 2.0149614810943604,
      "learning_rate": 8.015297729113436e-06,
      "loss": 1.0372,
      "step": 362
    },
    {
      "epoch": 1.0196905766526019,
      "grad_norm": 1.8744758367538452,
      "learning_rate": 8.0032473381416e-06,
      "loss": 1.1538,
      "step": 363
    },
    {
      "epoch": 1.0225035161744023,
      "grad_norm": 2.2196671962738037,
      "learning_rate": 7.991169595171669e-06,
      "loss": 1.1131,
      "step": 364
    },
    {
      "epoch": 1.0253164556962024,
      "grad_norm": 2.2530996799468994,
      "learning_rate": 7.979064610201372e-06,
      "loss": 1.3786,
      "step": 365
    },
    {
      "epoch": 1.0281293952180028,
      "grad_norm": 2.0854427814483643,
      "learning_rate": 7.966932493476554e-06,
      "loss": 1.0615,
      "step": 366
    },
    {
      "epoch": 1.030942334739803,
      "grad_norm": 2.3596975803375244,
      "learning_rate": 7.954773355490155e-06,
      "loss": 1.366,
      "step": 367
    },
    {
      "epoch": 1.0337552742616034,
      "grad_norm": 1.9892560243606567,
      "learning_rate": 7.942587306981213e-06,
      "loss": 1.0439,
      "step": 368
    },
    {
      "epoch": 1.0365682137834036,
      "grad_norm": 1.8899530172348022,
      "learning_rate": 7.930374458933852e-06,
      "loss": 1.0212,
      "step": 369
    },
    {
      "epoch": 1.039381153305204,
      "grad_norm": 2.1707684993743896,
      "learning_rate": 7.918134922576271e-06,
      "loss": 1.1767,
      "step": 370
    },
    {
      "epoch": 1.0421940928270041,
      "grad_norm": 2.041611671447754,
      "learning_rate": 7.905868809379735e-06,
      "loss": 1.2155,
      "step": 371
    },
    {
      "epoch": 1.0450070323488045,
      "grad_norm": 1.939260482788086,
      "learning_rate": 7.893576231057553e-06,
      "loss": 1.0179,
      "step": 372
    },
    {
      "epoch": 1.0478199718706047,
      "grad_norm": 1.9848639965057373,
      "learning_rate": 7.88125729956407e-06,
      "loss": 1.0099,
      "step": 373
    },
    {
      "epoch": 1.0506329113924051,
      "grad_norm": 2.0023953914642334,
      "learning_rate": 7.868912127093638e-06,
      "loss": 1.119,
      "step": 374
    },
    {
      "epoch": 1.0534458509142053,
      "grad_norm": 1.7961069345474243,
      "learning_rate": 7.856540826079595e-06,
      "loss": 0.7417,
      "step": 375
    },
    {
      "epoch": 1.0562587904360057,
      "grad_norm": 1.8289830684661865,
      "learning_rate": 7.844143509193252e-06,
      "loss": 1.0566,
      "step": 376
    },
    {
      "epoch": 1.0590717299578059,
      "grad_norm": 1.8681098222732544,
      "learning_rate": 7.831720289342853e-06,
      "loss": 0.9817,
      "step": 377
    },
    {
      "epoch": 1.0618846694796062,
      "grad_norm": 1.9967904090881348,
      "learning_rate": 7.819271279672553e-06,
      "loss": 0.9361,
      "step": 378
    },
    {
      "epoch": 1.0646976090014064,
      "grad_norm": 1.7474114894866943,
      "learning_rate": 7.806796593561389e-06,
      "loss": 0.9923,
      "step": 379
    },
    {
      "epoch": 1.0675105485232068,
      "grad_norm": 2.514089822769165,
      "learning_rate": 7.794296344622246e-06,
      "loss": 1.2647,
      "step": 380
    },
    {
      "epoch": 1.070323488045007,
      "grad_norm": 2.2486379146575928,
      "learning_rate": 7.78177064670082e-06,
      "loss": 1.1741,
      "step": 381
    },
    {
      "epoch": 1.0731364275668074,
      "grad_norm": 2.0108935832977295,
      "learning_rate": 7.769219613874581e-06,
      "loss": 1.0724,
      "step": 382
    },
    {
      "epoch": 1.0759493670886076,
      "grad_norm": 2.316124677658081,
      "learning_rate": 7.756643360451744e-06,
      "loss": 1.2943,
      "step": 383
    },
    {
      "epoch": 1.078762306610408,
      "grad_norm": 2.3428173065185547,
      "learning_rate": 7.744042000970207e-06,
      "loss": 1.2522,
      "step": 384
    },
    {
      "epoch": 1.0815752461322081,
      "grad_norm": 2.087315797805786,
      "learning_rate": 7.731415650196535e-06,
      "loss": 1.0241,
      "step": 385
    },
    {
      "epoch": 1.0843881856540085,
      "grad_norm": 2.1546409130096436,
      "learning_rate": 7.718764423124892e-06,
      "loss": 1.2256,
      "step": 386
    },
    {
      "epoch": 1.0872011251758087,
      "grad_norm": 2.559561252593994,
      "learning_rate": 7.706088434976e-06,
      "loss": 1.4538,
      "step": 387
    },
    {
      "epoch": 1.090014064697609,
      "grad_norm": 2.023336410522461,
      "learning_rate": 7.6933878011961e-06,
      "loss": 1.1043,
      "step": 388
    },
    {
      "epoch": 1.0928270042194093,
      "grad_norm": 2.1914350986480713,
      "learning_rate": 7.68066263745589e-06,
      "loss": 1.1997,
      "step": 389
    },
    {
      "epoch": 1.0956399437412097,
      "grad_norm": 1.8683468103408813,
      "learning_rate": 7.667913059649468e-06,
      "loss": 1.0576,
      "step": 390
    },
    {
      "epoch": 1.0984528832630098,
      "grad_norm": 2.2158288955688477,
      "learning_rate": 7.65513918389329e-06,
      "loss": 1.2133,
      "step": 391
    },
    {
      "epoch": 1.1012658227848102,
      "grad_norm": 2.4496500492095947,
      "learning_rate": 7.6423411265251e-06,
      "loss": 1.309,
      "step": 392
    },
    {
      "epoch": 1.1040787623066104,
      "grad_norm": 2.3594353199005127,
      "learning_rate": 7.629519004102876e-06,
      "loss": 1.2893,
      "step": 393
    },
    {
      "epoch": 1.1068917018284108,
      "grad_norm": 2.0072391033172607,
      "learning_rate": 7.616672933403772e-06,
      "loss": 0.9854,
      "step": 394
    },
    {
      "epoch": 1.109704641350211,
      "grad_norm": 2.1165082454681396,
      "learning_rate": 7.603803031423046e-06,
      "loss": 1.0648,
      "step": 395
    },
    {
      "epoch": 1.1125175808720114,
      "grad_norm": 2.136019229888916,
      "learning_rate": 7.590909415373e-06,
      "loss": 1.2763,
      "step": 396
    },
    {
      "epoch": 1.1153305203938115,
      "grad_norm": 2.089963912963867,
      "learning_rate": 7.577992202681912e-06,
      "loss": 1.1498,
      "step": 397
    },
    {
      "epoch": 1.1181434599156117,
      "grad_norm": 2.0347511768341064,
      "learning_rate": 7.565051510992964e-06,
      "loss": 1.0931,
      "step": 398
    },
    {
      "epoch": 1.120956399437412,
      "grad_norm": 1.902830958366394,
      "learning_rate": 7.552087458163177e-06,
      "loss": 1.0382,
      "step": 399
    },
    {
      "epoch": 1.1237693389592125,
      "grad_norm": 2.3222129344940186,
      "learning_rate": 7.539100162262325e-06,
      "loss": 1.3173,
      "step": 400
    },
    {
      "epoch": 1.1237693389592125,
      "eval_loss": 0.6541261672973633,
      "eval_runtime": 2.7652,
      "eval_samples_per_second": 9.403,
      "eval_steps_per_second": 1.447,
      "step": 400
    },
    {
      "epoch": 1.1237693389592125,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 579.625,
      "eval_avg_mem_token_accuracy": 0.23049645390070922,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.007830381881701,
      "eval_avg_mem_token_rate": 0.552185192576332,
      "eval_avg_mem_token_recall(Accuracy)": 0.23049645390070922,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 400,
      "eval_loss": 0.6541261672973633,
      "eval_num_samples": 30,
      "eval_runtime": 2.7652,
      "eval_samples_per_second": 9.403,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.447,
      "eval_total_correct_count": 65,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8301,
      "step": 400
    },
    {
      "epoch": 1.1265822784810127,
      "grad_norm": 2.1172144412994385,
      "learning_rate": 7.526089741571876e-06,
      "loss": 1.2135,
      "step": 401
    },
    {
      "epoch": 1.1293952180028128,
      "grad_norm": 2.117197036743164,
      "learning_rate": 7.5130563145838994e-06,
      "loss": 1.2903,
      "step": 402
    },
    {
      "epoch": 1.1322081575246132,
      "grad_norm": 1.8641384840011597,
      "learning_rate": 7.500000000000001e-06,
      "loss": 0.902,
      "step": 403
    },
    {
      "epoch": 1.1350210970464134,
      "grad_norm": 2.043870449066162,
      "learning_rate": 7.486920916730228e-06,
      "loss": 1.14,
      "step": 404
    },
    {
      "epoch": 1.1378340365682138,
      "grad_norm": 2.371406078338623,
      "learning_rate": 7.473819183891997e-06,
      "loss": 1.168,
      "step": 405
    },
    {
      "epoch": 1.140646976090014,
      "grad_norm": 2.017378807067871,
      "learning_rate": 7.460694920809004e-06,
      "loss": 1.2308,
      "step": 406
    },
    {
      "epoch": 1.1434599156118144,
      "grad_norm": 3.638538122177124,
      "learning_rate": 7.447548247010137e-06,
      "loss": 1.1636,
      "step": 407
    },
    {
      "epoch": 1.1462728551336145,
      "grad_norm": 1.9470067024230957,
      "learning_rate": 7.434379282228393e-06,
      "loss": 1.1502,
      "step": 408
    },
    {
      "epoch": 1.149085794655415,
      "grad_norm": 2.1175174713134766,
      "learning_rate": 7.421188146399776e-06,
      "loss": 1.0217,
      "step": 409
    },
    {
      "epoch": 1.1518987341772151,
      "grad_norm": 1.9489398002624512,
      "learning_rate": 7.407974959662222e-06,
      "loss": 1.223,
      "step": 410
    },
    {
      "epoch": 1.1547116736990155,
      "grad_norm": 2.227391242980957,
      "learning_rate": 7.394739842354489e-06,
      "loss": 1.1757,
      "step": 411
    },
    {
      "epoch": 1.1575246132208157,
      "grad_norm": 1.961480736732483,
      "learning_rate": 7.381482915015068e-06,
      "loss": 1.1204,
      "step": 412
    },
    {
      "epoch": 1.160337552742616,
      "grad_norm": 1.8854504823684692,
      "learning_rate": 7.368204298381085e-06,
      "loss": 1.0732,
      "step": 413
    },
    {
      "epoch": 1.1631504922644162,
      "grad_norm": 2.4665989875793457,
      "learning_rate": 7.3549041133872004e-06,
      "loss": 1.2208,
      "step": 414
    },
    {
      "epoch": 1.1659634317862166,
      "grad_norm": 2.293067216873169,
      "learning_rate": 7.341582481164508e-06,
      "loss": 1.0995,
      "step": 415
    },
    {
      "epoch": 1.1687763713080168,
      "grad_norm": 1.636135458946228,
      "learning_rate": 7.328239523039431e-06,
      "loss": 1.0113,
      "step": 416
    },
    {
      "epoch": 1.1715893108298172,
      "grad_norm": 2.080463171005249,
      "learning_rate": 7.314875360532618e-06,
      "loss": 1.2187,
      "step": 417
    },
    {
      "epoch": 1.1744022503516174,
      "grad_norm": 2.316681146621704,
      "learning_rate": 7.301490115357837e-06,
      "loss": 1.0254,
      "step": 418
    },
    {
      "epoch": 1.1772151898734178,
      "grad_norm": 1.9154740571975708,
      "learning_rate": 7.288083909420866e-06,
      "loss": 1.0994,
      "step": 419
    },
    {
      "epoch": 1.180028129395218,
      "grad_norm": 2.2701125144958496,
      "learning_rate": 7.274656864818379e-06,
      "loss": 1.193,
      "step": 420
    },
    {
      "epoch": 1.1828410689170183,
      "grad_norm": 2.259373188018799,
      "learning_rate": 7.261209103836843e-06,
      "loss": 1.2083,
      "step": 421
    },
    {
      "epoch": 1.1856540084388185,
      "grad_norm": 2.170278787612915,
      "learning_rate": 7.247740748951394e-06,
      "loss": 1.108,
      "step": 422
    },
    {
      "epoch": 1.188466947960619,
      "grad_norm": 2.3180534839630127,
      "learning_rate": 7.234251922824731e-06,
      "loss": 1.0838,
      "step": 423
    },
    {
      "epoch": 1.191279887482419,
      "grad_norm": 2.200087308883667,
      "learning_rate": 7.220742748305989e-06,
      "loss": 1.2188,
      "step": 424
    },
    {
      "epoch": 1.1940928270042195,
      "grad_norm": 2.148313045501709,
      "learning_rate": 7.20721334842963e-06,
      "loss": 1.1162,
      "step": 425
    },
    {
      "epoch": 1.1969057665260197,
      "grad_norm": 2.109539270401001,
      "learning_rate": 7.193663846414318e-06,
      "loss": 1.126,
      "step": 426
    },
    {
      "epoch": 1.19971870604782,
      "grad_norm": 2.3250086307525635,
      "learning_rate": 7.180094365661793e-06,
      "loss": 1.216,
      "step": 427
    },
    {
      "epoch": 1.2025316455696202,
      "grad_norm": 2.1778461933135986,
      "learning_rate": 7.166505029755753e-06,
      "loss": 1.1582,
      "step": 428
    },
    {
      "epoch": 1.2053445850914206,
      "grad_norm": 2.0346758365631104,
      "learning_rate": 7.152895962460727e-06,
      "loss": 1.0597,
      "step": 429
    },
    {
      "epoch": 1.2081575246132208,
      "grad_norm": 2.2523462772369385,
      "learning_rate": 7.139267287720945e-06,
      "loss": 1.3096,
      "step": 430
    },
    {
      "epoch": 1.2109704641350212,
      "grad_norm": 2.1248557567596436,
      "learning_rate": 7.125619129659215e-06,
      "loss": 1.2255,
      "step": 431
    },
    {
      "epoch": 1.2137834036568214,
      "grad_norm": 2.402777671813965,
      "learning_rate": 7.111951612575783e-06,
      "loss": 1.2178,
      "step": 432
    },
    {
      "epoch": 1.2165963431786218,
      "grad_norm": 2.1899073123931885,
      "learning_rate": 7.0982648609472135e-06,
      "loss": 1.1086,
      "step": 433
    },
    {
      "epoch": 1.219409282700422,
      "grad_norm": 2.306647777557373,
      "learning_rate": 7.084558999425245e-06,
      "loss": 1.2791,
      "step": 434
    },
    {
      "epoch": 1.2222222222222223,
      "grad_norm": 2.1083829402923584,
      "learning_rate": 7.0708341528356585e-06,
      "loss": 1.2203,
      "step": 435
    },
    {
      "epoch": 1.2250351617440225,
      "grad_norm": 1.9246402978897095,
      "learning_rate": 7.0570904461771426e-06,
      "loss": 1.1293,
      "step": 436
    },
    {
      "epoch": 1.2278481012658227,
      "grad_norm": 2.0863969326019287,
      "learning_rate": 7.043328004620154e-06,
      "loss": 1.1112,
      "step": 437
    },
    {
      "epoch": 1.230661040787623,
      "grad_norm": 2.237459421157837,
      "learning_rate": 7.029546953505776e-06,
      "loss": 1.1374,
      "step": 438
    },
    {
      "epoch": 1.2334739803094235,
      "grad_norm": 1.9015916585922241,
      "learning_rate": 7.015747418344578e-06,
      "loss": 1.0886,
      "step": 439
    },
    {
      "epoch": 1.2362869198312236,
      "grad_norm": 2.1524229049682617,
      "learning_rate": 7.0019295248154714e-06,
      "loss": 1.1271,
      "step": 440
    },
    {
      "epoch": 1.2390998593530238,
      "grad_norm": 2.171227216720581,
      "learning_rate": 6.98809339876457e-06,
      "loss": 1.2677,
      "step": 441
    },
    {
      "epoch": 1.2419127988748242,
      "grad_norm": 2.0763444900512695,
      "learning_rate": 6.974239166204034e-06,
      "loss": 1.0989,
      "step": 442
    },
    {
      "epoch": 1.2447257383966246,
      "grad_norm": 2.1066906452178955,
      "learning_rate": 6.960366953310931e-06,
      "loss": 1.2027,
      "step": 443
    },
    {
      "epoch": 1.2475386779184248,
      "grad_norm": 2.748056650161743,
      "learning_rate": 6.946476886426087e-06,
      "loss": 1.0004,
      "step": 444
    },
    {
      "epoch": 1.250351617440225,
      "grad_norm": 1.90733003616333,
      "learning_rate": 6.932569092052927e-06,
      "loss": 0.9063,
      "step": 445
    },
    {
      "epoch": 1.2531645569620253,
      "grad_norm": 2.3296380043029785,
      "learning_rate": 6.918643696856333e-06,
      "loss": 1.2053,
      "step": 446
    },
    {
      "epoch": 1.2559774964838257,
      "grad_norm": 2.194408416748047,
      "learning_rate": 6.904700827661484e-06,
      "loss": 1.2663,
      "step": 447
    },
    {
      "epoch": 1.258790436005626,
      "grad_norm": 2.2270679473876953,
      "learning_rate": 6.890740611452705e-06,
      "loss": 1.1718,
      "step": 448
    },
    {
      "epoch": 1.261603375527426,
      "grad_norm": 1.8598543405532837,
      "learning_rate": 6.876763175372306e-06,
      "loss": 0.958,
      "step": 449
    },
    {
      "epoch": 1.2644163150492265,
      "grad_norm": 2.112734079360962,
      "learning_rate": 6.862768646719425e-06,
      "loss": 1.2674,
      "step": 450
    },
    {
      "epoch": 1.2644163150492265,
      "eval_loss": 0.6488014459609985,
      "eval_runtime": 2.7966,
      "eval_samples_per_second": 9.297,
      "eval_steps_per_second": 1.43,
      "step": 450
    },
    {
      "epoch": 1.2644163150492265,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 588.0,
      "eval_avg_mem_token_accuracy": 0.23404255319148937,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.007794048181388758,
      "eval_avg_mem_token_rate": 0.5632940863433779,
      "eval_avg_mem_token_recall(Accuracy)": 0.23404255319148937,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 450,
      "eval_loss": 0.6488014459609985,
      "eval_num_samples": 30,
      "eval_runtime": 2.7966,
      "eval_samples_per_second": 9.297,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.43,
      "eval_total_correct_count": 66,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8468,
      "step": 450
    },
    {
      "epoch": 1.2672292545710266,
      "grad_norm": 1.943136215209961,
      "learning_rate": 6.848757152948876e-06,
      "loss": 1.0877,
      "step": 451
    },
    {
      "epoch": 1.270042194092827,
      "grad_norm": 2.015427589416504,
      "learning_rate": 6.834728821669978e-06,
      "loss": 1.0226,
      "step": 452
    },
    {
      "epoch": 1.2728551336146272,
      "grad_norm": 2.0203545093536377,
      "learning_rate": 6.820683780645397e-06,
      "loss": 1.0537,
      "step": 453
    },
    {
      "epoch": 1.2756680731364276,
      "grad_norm": 1.9082456827163696,
      "learning_rate": 6.806622157789989e-06,
      "loss": 1.0811,
      "step": 454
    },
    {
      "epoch": 1.2784810126582278,
      "grad_norm": 2.0107004642486572,
      "learning_rate": 6.7925440811696165e-06,
      "loss": 1.1643,
      "step": 455
    },
    {
      "epoch": 1.2812939521800282,
      "grad_norm": 1.968511700630188,
      "learning_rate": 6.778449679000006e-06,
      "loss": 0.9849,
      "step": 456
    },
    {
      "epoch": 1.2841068917018283,
      "grad_norm": 2.0401535034179688,
      "learning_rate": 6.764339079645561e-06,
      "loss": 1.1488,
      "step": 457
    },
    {
      "epoch": 1.2869198312236287,
      "grad_norm": 1.788967251777649,
      "learning_rate": 6.7502124116182066e-06,
      "loss": 0.8775,
      "step": 458
    },
    {
      "epoch": 1.289732770745429,
      "grad_norm": 1.8958114385604858,
      "learning_rate": 6.736069803576205e-06,
      "loss": 1.1991,
      "step": 459
    },
    {
      "epoch": 1.2925457102672293,
      "grad_norm": 2.1174044609069824,
      "learning_rate": 6.721911384323e-06,
      "loss": 1.2373,
      "step": 460
    },
    {
      "epoch": 1.2953586497890295,
      "grad_norm": 2.2091267108917236,
      "learning_rate": 6.7077372828060294e-06,
      "loss": 1.1511,
      "step": 461
    },
    {
      "epoch": 1.2981715893108299,
      "grad_norm": 1.904528021812439,
      "learning_rate": 6.693547628115561e-06,
      "loss": 0.9815,
      "step": 462
    },
    {
      "epoch": 1.30098452883263,
      "grad_norm": 2.0216708183288574,
      "learning_rate": 6.67934254948351e-06,
      "loss": 1.0773,
      "step": 463
    },
    {
      "epoch": 1.3037974683544304,
      "grad_norm": 2.3458025455474854,
      "learning_rate": 6.6651221762822635e-06,
      "loss": 1.2122,
      "step": 464
    },
    {
      "epoch": 1.3066104078762306,
      "grad_norm": 2.210007905960083,
      "learning_rate": 6.650886638023508e-06,
      "loss": 1.2001,
      "step": 465
    },
    {
      "epoch": 1.309423347398031,
      "grad_norm": 2.168041229248047,
      "learning_rate": 6.636636064357045e-06,
      "loss": 1.1748,
      "step": 466
    },
    {
      "epoch": 1.3122362869198312,
      "grad_norm": 2.1177752017974854,
      "learning_rate": 6.622370585069605e-06,
      "loss": 1.1441,
      "step": 467
    },
    {
      "epoch": 1.3150492264416316,
      "grad_norm": 4.13400411605835,
      "learning_rate": 6.608090330083677e-06,
      "loss": 1.0154,
      "step": 468
    },
    {
      "epoch": 1.3178621659634318,
      "grad_norm": 1.8855236768722534,
      "learning_rate": 6.593795429456317e-06,
      "loss": 1.1638,
      "step": 469
    },
    {
      "epoch": 1.3206751054852321,
      "grad_norm": 2.1128952503204346,
      "learning_rate": 6.579486013377963e-06,
      "loss": 1.2435,
      "step": 470
    },
    {
      "epoch": 1.3234880450070323,
      "grad_norm": 2.091977119445801,
      "learning_rate": 6.565162212171257e-06,
      "loss": 1.1948,
      "step": 471
    },
    {
      "epoch": 1.3263009845288325,
      "grad_norm": 1.8725004196166992,
      "learning_rate": 6.550824156289852e-06,
      "loss": 0.9448,
      "step": 472
    },
    {
      "epoch": 1.3291139240506329,
      "grad_norm": 2.134361982345581,
      "learning_rate": 6.536471976317223e-06,
      "loss": 1.1985,
      "step": 473
    },
    {
      "epoch": 1.3319268635724333,
      "grad_norm": 2.0700531005859375,
      "learning_rate": 6.5221058029654815e-06,
      "loss": 1.1321,
      "step": 474
    },
    {
      "epoch": 1.3347398030942335,
      "grad_norm": 2.336487054824829,
      "learning_rate": 6.507725767074181e-06,
      "loss": 1.2447,
      "step": 475
    },
    {
      "epoch": 1.3375527426160336,
      "grad_norm": 2.1936490535736084,
      "learning_rate": 6.493331999609132e-06,
      "loss": 1.3264,
      "step": 476
    },
    {
      "epoch": 1.340365682137834,
      "grad_norm": 1.8957630395889282,
      "learning_rate": 6.4789246316612e-06,
      "loss": 1.0029,
      "step": 477
    },
    {
      "epoch": 1.3431786216596344,
      "grad_norm": 2.329432249069214,
      "learning_rate": 6.464503794445121e-06,
      "loss": 1.3139,
      "step": 478
    },
    {
      "epoch": 1.3459915611814346,
      "grad_norm": 2.2381882667541504,
      "learning_rate": 6.450069619298299e-06,
      "loss": 1.0446,
      "step": 479
    },
    {
      "epoch": 1.3488045007032348,
      "grad_norm": 2.235319137573242,
      "learning_rate": 6.435622237679615e-06,
      "loss": 1.1327,
      "step": 480
    },
    {
      "epoch": 1.3516174402250352,
      "grad_norm": 2.1776840686798096,
      "learning_rate": 6.421161781168226e-06,
      "loss": 1.0707,
      "step": 481
    },
    {
      "epoch": 1.3544303797468356,
      "grad_norm": 2.003654956817627,
      "learning_rate": 6.4066883814623674e-06,
      "loss": 1.0294,
      "step": 482
    },
    {
      "epoch": 1.3572433192686357,
      "grad_norm": 2.2653419971466064,
      "learning_rate": 6.3922021703781574e-06,
      "loss": 1.1558,
      "step": 483
    },
    {
      "epoch": 1.360056258790436,
      "grad_norm": 1.8952243328094482,
      "learning_rate": 6.377703279848393e-06,
      "loss": 1.1621,
      "step": 484
    },
    {
      "epoch": 1.3628691983122363,
      "grad_norm": 1.818117618560791,
      "learning_rate": 6.363191841921345e-06,
      "loss": 1.1758,
      "step": 485
    },
    {
      "epoch": 1.3656821378340367,
      "grad_norm": 2.188119411468506,
      "learning_rate": 6.3486679887595635e-06,
      "loss": 1.4035,
      "step": 486
    },
    {
      "epoch": 1.3684950773558369,
      "grad_norm": 2.2680625915527344,
      "learning_rate": 6.334131852638669e-06,
      "loss": 1.3802,
      "step": 487
    },
    {
      "epoch": 1.371308016877637,
      "grad_norm": 2.239824056625366,
      "learning_rate": 6.319583565946147e-06,
      "loss": 0.978,
      "step": 488
    },
    {
      "epoch": 1.3741209563994374,
      "grad_norm": 2.084578275680542,
      "learning_rate": 6.305023261180146e-06,
      "loss": 1.1592,
      "step": 489
    },
    {
      "epoch": 1.3769338959212378,
      "grad_norm": 2.074716329574585,
      "learning_rate": 6.290451070948269e-06,
      "loss": 1.1417,
      "step": 490
    },
    {
      "epoch": 1.379746835443038,
      "grad_norm": 2.2187070846557617,
      "learning_rate": 6.275867127966364e-06,
      "loss": 1.3134,
      "step": 491
    },
    {
      "epoch": 1.3825597749648382,
      "grad_norm": 1.9704614877700806,
      "learning_rate": 6.261271565057318e-06,
      "loss": 1.2947,
      "step": 492
    },
    {
      "epoch": 1.3853727144866386,
      "grad_norm": 2.0791146755218506,
      "learning_rate": 6.246664515149845e-06,
      "loss": 1.1796,
      "step": 493
    },
    {
      "epoch": 1.3881856540084387,
      "grad_norm": 2.070108413696289,
      "learning_rate": 6.232046111277277e-06,
      "loss": 1.016,
      "step": 494
    },
    {
      "epoch": 1.3909985935302391,
      "grad_norm": 2.40295147895813,
      "learning_rate": 6.217416486576354e-06,
      "loss": 1.247,
      "step": 495
    },
    {
      "epoch": 1.3938115330520393,
      "grad_norm": 1.9346283674240112,
      "learning_rate": 6.202775774286007e-06,
      "loss": 1.0943,
      "step": 496
    },
    {
      "epoch": 1.3966244725738397,
      "grad_norm": 1.88413667678833,
      "learning_rate": 6.188124107746148e-06,
      "loss": 1.0378,
      "step": 497
    },
    {
      "epoch": 1.3994374120956399,
      "grad_norm": 2.3754115104675293,
      "learning_rate": 6.173461620396453e-06,
      "loss": 1.1976,
      "step": 498
    },
    {
      "epoch": 1.4022503516174403,
      "grad_norm": 2.2472076416015625,
      "learning_rate": 6.158788445775151e-06,
      "loss": 1.348,
      "step": 499
    },
    {
      "epoch": 1.4050632911392404,
      "grad_norm": 2.299577474594116,
      "learning_rate": 6.1441047175178025e-06,
      "loss": 1.3543,
      "step": 500
    },
    {
      "epoch": 1.4050632911392404,
      "eval_loss": 0.6480849385261536,
      "eval_runtime": 2.7664,
      "eval_samples_per_second": 9.398,
      "eval_steps_per_second": 1.446,
      "step": 500
    },
    {
      "epoch": 1.4050632911392404,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 593.75,
      "eval_avg_mem_token_accuracy": 0.2375886524822695,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.007852789498359119,
      "eval_avg_mem_token_rate": 0.5675513869487129,
      "eval_avg_mem_token_recall(Accuracy)": 0.2375886524822695,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 500,
      "eval_loss": 0.6480849385261536,
      "eval_num_samples": 30,
      "eval_runtime": 2.7664,
      "eval_samples_per_second": 9.398,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.446,
      "eval_total_correct_count": 67,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8532,
      "step": 500
    },
    {
      "epoch": 1.4078762306610408,
      "grad_norm": 2.4926252365112305,
      "learning_rate": 6.129410569356086e-06,
      "loss": 1.1548,
      "step": 501
    },
    {
      "epoch": 1.410689170182841,
      "grad_norm": 1.9530552625656128,
      "learning_rate": 6.11470613511658e-06,
      "loss": 0.9438,
      "step": 502
    },
    {
      "epoch": 1.4135021097046414,
      "grad_norm": 2.046297788619995,
      "learning_rate": 6.0999915487195395e-06,
      "loss": 1.0105,
      "step": 503
    },
    {
      "epoch": 1.4163150492264416,
      "grad_norm": 2.359480619430542,
      "learning_rate": 6.085266944177686e-06,
      "loss": 1.2237,
      "step": 504
    },
    {
      "epoch": 1.419127988748242,
      "grad_norm": 2.0814826488494873,
      "learning_rate": 6.070532455594974e-06,
      "loss": 1.3641,
      "step": 505
    },
    {
      "epoch": 1.4219409282700421,
      "grad_norm": 2.5021960735321045,
      "learning_rate": 6.055788217165384e-06,
      "loss": 1.1271,
      "step": 506
    },
    {
      "epoch": 1.4247538677918425,
      "grad_norm": 2.1782703399658203,
      "learning_rate": 6.0410343631716865e-06,
      "loss": 1.1237,
      "step": 507
    },
    {
      "epoch": 1.4275668073136427,
      "grad_norm": 1.9032992124557495,
      "learning_rate": 6.0262710279842305e-06,
      "loss": 1.2318,
      "step": 508
    },
    {
      "epoch": 1.4303797468354431,
      "grad_norm": 1.969860315322876,
      "learning_rate": 6.011498346059712e-06,
      "loss": 1.0196,
      "step": 509
    },
    {
      "epoch": 1.4331926863572433,
      "grad_norm": 2.1782121658325195,
      "learning_rate": 5.99671645193995e-06,
      "loss": 1.1725,
      "step": 510
    },
    {
      "epoch": 1.4360056258790437,
      "grad_norm": 2.0659401416778564,
      "learning_rate": 5.98192548025067e-06,
      "loss": 1.1655,
      "step": 511
    },
    {
      "epoch": 1.4388185654008439,
      "grad_norm": 2.1270692348480225,
      "learning_rate": 5.967125565700266e-06,
      "loss": 0.9583,
      "step": 512
    },
    {
      "epoch": 1.4416315049226442,
      "grad_norm": 2.146409034729004,
      "learning_rate": 5.952316843078579e-06,
      "loss": 1.1295,
      "step": 513
    },
    {
      "epoch": 1.4444444444444444,
      "grad_norm": 2.323197364807129,
      "learning_rate": 5.9374994472556715e-06,
      "loss": 1.1557,
      "step": 514
    },
    {
      "epoch": 1.4472573839662446,
      "grad_norm": 2.1008739471435547,
      "learning_rate": 5.922673513180596e-06,
      "loss": 1.24,
      "step": 515
    },
    {
      "epoch": 1.450070323488045,
      "grad_norm": 2.4466872215270996,
      "learning_rate": 5.9078391758801646e-06,
      "loss": 1.2434,
      "step": 516
    },
    {
      "epoch": 1.4528832630098454,
      "grad_norm": 2.210320234298706,
      "learning_rate": 5.8929965704577275e-06,
      "loss": 1.136,
      "step": 517
    },
    {
      "epoch": 1.4556962025316456,
      "grad_norm": 2.259718894958496,
      "learning_rate": 5.878145832091929e-06,
      "loss": 1.3789,
      "step": 518
    },
    {
      "epoch": 1.4585091420534457,
      "grad_norm": 2.305795431137085,
      "learning_rate": 5.863287096035491e-06,
      "loss": 1.0189,
      "step": 519
    },
    {
      "epoch": 1.4613220815752461,
      "grad_norm": 2.283437967300415,
      "learning_rate": 5.848420497613969e-06,
      "loss": 1.1944,
      "step": 520
    },
    {
      "epoch": 1.4641350210970465,
      "grad_norm": 2.0504446029663086,
      "learning_rate": 5.833546172224527e-06,
      "loss": 1.22,
      "step": 521
    },
    {
      "epoch": 1.4669479606188467,
      "grad_norm": 2.018839120864868,
      "learning_rate": 5.818664255334702e-06,
      "loss": 1.0634,
      "step": 522
    },
    {
      "epoch": 1.4697609001406469,
      "grad_norm": 2.3706552982330322,
      "learning_rate": 5.803774882481171e-06,
      "loss": 1.1355,
      "step": 523
    },
    {
      "epoch": 1.4725738396624473,
      "grad_norm": 2.355933427810669,
      "learning_rate": 5.788878189268516e-06,
      "loss": 1.2492,
      "step": 524
    },
    {
      "epoch": 1.4753867791842477,
      "grad_norm": 2.439201831817627,
      "learning_rate": 5.773974311367987e-06,
      "loss": 1.3196,
      "step": 525
    },
    {
      "epoch": 1.4781997187060478,
      "grad_norm": 2.0663866996765137,
      "learning_rate": 5.759063384516271e-06,
      "loss": 1.1885,
      "step": 526
    },
    {
      "epoch": 1.481012658227848,
      "grad_norm": 2.264146327972412,
      "learning_rate": 5.7441455445142505e-06,
      "loss": 1.2146,
      "step": 527
    },
    {
      "epoch": 1.4838255977496484,
      "grad_norm": 1.8687844276428223,
      "learning_rate": 5.729220927225769e-06,
      "loss": 0.9485,
      "step": 528
    },
    {
      "epoch": 1.4866385372714488,
      "grad_norm": 2.1123878955841064,
      "learning_rate": 5.714289668576401e-06,
      "loss": 1.0617,
      "step": 529
    },
    {
      "epoch": 1.489451476793249,
      "grad_norm": 2.460676670074463,
      "learning_rate": 5.699351904552196e-06,
      "loss": 1.5609,
      "step": 530
    },
    {
      "epoch": 1.4922644163150491,
      "grad_norm": 2.3636927604675293,
      "learning_rate": 5.68440777119846e-06,
      "loss": 1.2612,
      "step": 531
    },
    {
      "epoch": 1.4950773558368495,
      "grad_norm": 1.9600480794906616,
      "learning_rate": 5.669457404618502e-06,
      "loss": 0.9536,
      "step": 532
    },
    {
      "epoch": 1.49789029535865,
      "grad_norm": 1.95573091506958,
      "learning_rate": 5.654500940972405e-06,
      "loss": 1.0379,
      "step": 533
    },
    {
      "epoch": 1.50070323488045,
      "grad_norm": 1.8376390933990479,
      "learning_rate": 5.639538516475775e-06,
      "loss": 1.1431,
      "step": 534
    },
    {
      "epoch": 1.5035161744022503,
      "grad_norm": 1.8683063983917236,
      "learning_rate": 5.624570267398511e-06,
      "loss": 1.0917,
      "step": 535
    },
    {
      "epoch": 1.5063291139240507,
      "grad_norm": 2.060288906097412,
      "learning_rate": 5.6095963300635585e-06,
      "loss": 1.0954,
      "step": 536
    },
    {
      "epoch": 1.509142053445851,
      "grad_norm": 2.148991107940674,
      "learning_rate": 5.594616840845666e-06,
      "loss": 1.0198,
      "step": 537
    },
    {
      "epoch": 1.5119549929676512,
      "grad_norm": 2.234832286834717,
      "learning_rate": 5.579631936170147e-06,
      "loss": 1.1007,
      "step": 538
    },
    {
      "epoch": 1.5147679324894514,
      "grad_norm": 2.1892640590667725,
      "learning_rate": 5.564641752511637e-06,
      "loss": 1.0431,
      "step": 539
    },
    {
      "epoch": 1.5175808720112518,
      "grad_norm": 2.029608726501465,
      "learning_rate": 5.54964642639285e-06,
      "loss": 1.0874,
      "step": 540
    },
    {
      "epoch": 1.5203938115330522,
      "grad_norm": 2.019705057144165,
      "learning_rate": 5.534646094383333e-06,
      "loss": 1.0566,
      "step": 541
    },
    {
      "epoch": 1.5232067510548524,
      "grad_norm": 2.067397117614746,
      "learning_rate": 5.519640893098227e-06,
      "loss": 1.1467,
      "step": 542
    },
    {
      "epoch": 1.5260196905766525,
      "grad_norm": 2.2218313217163086,
      "learning_rate": 5.504630959197014e-06,
      "loss": 1.2784,
      "step": 543
    },
    {
      "epoch": 1.528832630098453,
      "grad_norm": 2.1426005363464355,
      "learning_rate": 5.489616429382285e-06,
      "loss": 1.217,
      "step": 544
    },
    {
      "epoch": 1.5316455696202531,
      "grad_norm": 2.0496666431427,
      "learning_rate": 5.474597440398483e-06,
      "loss": 1.1561,
      "step": 545
    },
    {
      "epoch": 1.5344585091420533,
      "grad_norm": 1.9886417388916016,
      "learning_rate": 5.459574129030669e-06,
      "loss": 1.2286,
      "step": 546
    },
    {
      "epoch": 1.5372714486638537,
      "grad_norm": 1.9588450193405151,
      "learning_rate": 5.444546632103262e-06,
      "loss": 1.1474,
      "step": 547
    },
    {
      "epoch": 1.540084388185654,
      "grad_norm": 2.0006983280181885,
      "learning_rate": 5.429515086478805e-06,
      "loss": 1.1519,
      "step": 548
    },
    {
      "epoch": 1.5428973277074542,
      "grad_norm": 2.1134023666381836,
      "learning_rate": 5.414479629056717e-06,
      "loss": 1.1426,
      "step": 549
    },
    {
      "epoch": 1.5457102672292544,
      "grad_norm": 2.110901355743408,
      "learning_rate": 5.3994403967720366e-06,
      "loss": 1.0726,
      "step": 550
    },
    {
      "epoch": 1.5457102672292544,
      "eval_loss": 0.6454769372940063,
      "eval_runtime": 2.82,
      "eval_samples_per_second": 9.22,
      "eval_steps_per_second": 1.418,
      "step": 550
    },
    {
      "epoch": 1.5457102672292544,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 591.125,
      "eval_avg_mem_token_accuracy": 0.24113475177304963,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.008006593665371483,
      "eval_avg_mem_token_rate": 0.5649570943923369,
      "eval_avg_mem_token_recall(Accuracy)": 0.24113475177304963,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 550,
      "eval_loss": 0.6454769372940063,
      "eval_num_samples": 30,
      "eval_runtime": 2.82,
      "eval_samples_per_second": 9.22,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.418,
      "eval_total_correct_count": 68,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8493,
      "step": 550
    },
    {
      "epoch": 1.5485232067510548,
      "grad_norm": 1.9120993614196777,
      "learning_rate": 5.3843975265941896e-06,
      "loss": 1.1199,
      "step": 551
    },
    {
      "epoch": 1.5513361462728552,
      "grad_norm": 2.0266835689544678,
      "learning_rate": 5.369351155525729e-06,
      "loss": 1.1231,
      "step": 552
    },
    {
      "epoch": 1.5541490857946554,
      "grad_norm": 2.3950095176696777,
      "learning_rate": 5.354301420601095e-06,
      "loss": 1.2016,
      "step": 553
    },
    {
      "epoch": 1.5569620253164556,
      "grad_norm": 2.245199680328369,
      "learning_rate": 5.33924845888536e-06,
      "loss": 1.1973,
      "step": 554
    },
    {
      "epoch": 1.559774964838256,
      "grad_norm": 2.302870988845825,
      "learning_rate": 5.3241924074729865e-06,
      "loss": 1.1057,
      "step": 555
    },
    {
      "epoch": 1.5625879043600563,
      "grad_norm": 2.439229726791382,
      "learning_rate": 5.30913340348658e-06,
      "loss": 1.0278,
      "step": 556
    },
    {
      "epoch": 1.5654008438818565,
      "grad_norm": 2.243025779724121,
      "learning_rate": 5.294071584075628e-06,
      "loss": 1.2353,
      "step": 557
    },
    {
      "epoch": 1.5682137834036567,
      "grad_norm": 2.1339046955108643,
      "learning_rate": 5.279007086415268e-06,
      "loss": 1.2753,
      "step": 558
    },
    {
      "epoch": 1.571026722925457,
      "grad_norm": 2.055248260498047,
      "learning_rate": 5.263940047705026e-06,
      "loss": 1.0207,
      "step": 559
    },
    {
      "epoch": 1.5738396624472575,
      "grad_norm": 2.2932729721069336,
      "learning_rate": 5.24887060516757e-06,
      "loss": 1.0904,
      "step": 560
    },
    {
      "epoch": 1.5766526019690577,
      "grad_norm": 2.3540918827056885,
      "learning_rate": 5.233798896047461e-06,
      "loss": 1.045,
      "step": 561
    },
    {
      "epoch": 1.5794655414908578,
      "grad_norm": 1.941489338874817,
      "learning_rate": 5.218725057609901e-06,
      "loss": 0.9543,
      "step": 562
    },
    {
      "epoch": 1.5822784810126582,
      "grad_norm": 1.9541575908660889,
      "learning_rate": 5.2036492271394915e-06,
      "loss": 0.9803,
      "step": 563
    },
    {
      "epoch": 1.5850914205344586,
      "grad_norm": 2.066892147064209,
      "learning_rate": 5.188571541938968e-06,
      "loss": 1.1598,
      "step": 564
    },
    {
      "epoch": 1.5879043600562588,
      "grad_norm": 2.207688093185425,
      "learning_rate": 5.1734921393279644e-06,
      "loss": 1.14,
      "step": 565
    },
    {
      "epoch": 1.590717299578059,
      "grad_norm": 2.2512924671173096,
      "learning_rate": 5.158411156641752e-06,
      "loss": 1.2269,
      "step": 566
    },
    {
      "epoch": 1.5935302390998594,
      "grad_norm": 1.9499599933624268,
      "learning_rate": 5.143328731229994e-06,
      "loss": 0.9949,
      "step": 567
    },
    {
      "epoch": 1.5963431786216598,
      "grad_norm": 2.176727056503296,
      "learning_rate": 5.128245000455493e-06,
      "loss": 1.1866,
      "step": 568
    },
    {
      "epoch": 1.59915611814346,
      "grad_norm": 2.0169143676757812,
      "learning_rate": 5.113160101692939e-06,
      "loss": 1.1554,
      "step": 569
    },
    {
      "epoch": 1.60196905766526,
      "grad_norm": 2.1123158931732178,
      "learning_rate": 5.098074172327661e-06,
      "loss": 0.9758,
      "step": 570
    },
    {
      "epoch": 1.6047819971870605,
      "grad_norm": 1.8653483390808105,
      "learning_rate": 5.082987349754376e-06,
      "loss": 1.009,
      "step": 571
    },
    {
      "epoch": 1.6075949367088609,
      "grad_norm": 2.3386378288269043,
      "learning_rate": 5.0678997713759305e-06,
      "loss": 1.1193,
      "step": 572
    },
    {
      "epoch": 1.610407876230661,
      "grad_norm": 2.200810432434082,
      "learning_rate": 5.052811574602059e-06,
      "loss": 1.2255,
      "step": 573
    },
    {
      "epoch": 1.6132208157524612,
      "grad_norm": 2.702786922454834,
      "learning_rate": 5.0377228968481274e-06,
      "loss": 1.2351,
      "step": 574
    },
    {
      "epoch": 1.6160337552742616,
      "grad_norm": 2.252342462539673,
      "learning_rate": 5.022633875533879e-06,
      "loss": 1.095,
      "step": 575
    },
    {
      "epoch": 1.618846694796062,
      "grad_norm": 2.326218605041504,
      "learning_rate": 5.00754464808219e-06,
      "loss": 1.1578,
      "step": 576
    },
    {
      "epoch": 1.6216596343178622,
      "grad_norm": 2.0061216354370117,
      "learning_rate": 4.992455351917812e-06,
      "loss": 0.974,
      "step": 577
    },
    {
      "epoch": 1.6244725738396624,
      "grad_norm": 2.0241732597351074,
      "learning_rate": 4.977366124466122e-06,
      "loss": 1.0518,
      "step": 578
    },
    {
      "epoch": 1.6272855133614628,
      "grad_norm": 2.2035324573516846,
      "learning_rate": 4.962277103151876e-06,
      "loss": 1.0806,
      "step": 579
    },
    {
      "epoch": 1.6300984528832632,
      "grad_norm": 1.9597488641738892,
      "learning_rate": 4.947188425397942e-06,
      "loss": 0.9929,
      "step": 580
    },
    {
      "epoch": 1.6329113924050633,
      "grad_norm": 1.8797650337219238,
      "learning_rate": 4.932100228624072e-06,
      "loss": 1.0142,
      "step": 581
    },
    {
      "epoch": 1.6357243319268635,
      "grad_norm": 2.195955514907837,
      "learning_rate": 4.917012650245626e-06,
      "loss": 1.2481,
      "step": 582
    },
    {
      "epoch": 1.638537271448664,
      "grad_norm": 2.0398526191711426,
      "learning_rate": 4.901925827672341e-06,
      "loss": 0.9249,
      "step": 583
    },
    {
      "epoch": 1.6413502109704643,
      "grad_norm": 2.003324508666992,
      "learning_rate": 4.886839898307062e-06,
      "loss": 1.0438,
      "step": 584
    },
    {
      "epoch": 1.6441631504922645,
      "grad_norm": 1.6683696508407593,
      "learning_rate": 4.8717549995445105e-06,
      "loss": 0.8833,
      "step": 585
    },
    {
      "epoch": 1.6469760900140646,
      "grad_norm": 2.1678078174591064,
      "learning_rate": 4.856671268770007e-06,
      "loss": 1.1291,
      "step": 586
    },
    {
      "epoch": 1.649789029535865,
      "grad_norm": 1.9070981740951538,
      "learning_rate": 4.841588843358251e-06,
      "loss": 0.9658,
      "step": 587
    },
    {
      "epoch": 1.6526019690576652,
      "grad_norm": 1.897820234298706,
      "learning_rate": 4.826507860672036e-06,
      "loss": 0.9903,
      "step": 588
    },
    {
      "epoch": 1.6554149085794654,
      "grad_norm": 2.141012668609619,
      "learning_rate": 4.811428458061033e-06,
      "loss": 1.3183,
      "step": 589
    },
    {
      "epoch": 1.6582278481012658,
      "grad_norm": 1.9511604309082031,
      "learning_rate": 4.796350772860511e-06,
      "loss": 1.2011,
      "step": 590
    },
    {
      "epoch": 1.6610407876230662,
      "grad_norm": 2.517437696456909,
      "learning_rate": 4.7812749423901e-06,
      "loss": 1.1229,
      "step": 591
    },
    {
      "epoch": 1.6638537271448663,
      "grad_norm": 1.9676152467727661,
      "learning_rate": 4.7662011039525416e-06,
      "loss": 1.1357,
      "step": 592
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 1.9041470289230347,
      "learning_rate": 4.7511293948324325e-06,
      "loss": 1.0166,
      "step": 593
    },
    {
      "epoch": 1.669479606188467,
      "grad_norm": 2.15259051322937,
      "learning_rate": 4.736059952294975e-06,
      "loss": 1.011,
      "step": 594
    },
    {
      "epoch": 1.6722925457102673,
      "grad_norm": 2.361236333847046,
      "learning_rate": 4.720992913584732e-06,
      "loss": 1.3296,
      "step": 595
    },
    {
      "epoch": 1.6751054852320675,
      "grad_norm": 2.3137876987457275,
      "learning_rate": 4.7059284159243725e-06,
      "loss": 1.3602,
      "step": 596
    },
    {
      "epoch": 1.6779184247538677,
      "grad_norm": 2.085984230041504,
      "learning_rate": 4.690866596513421e-06,
      "loss": 1.247,
      "step": 597
    },
    {
      "epoch": 1.680731364275668,
      "grad_norm": 2.2906124591827393,
      "learning_rate": 4.675807592527014e-06,
      "loss": 1.2777,
      "step": 598
    },
    {
      "epoch": 1.6835443037974684,
      "grad_norm": 2.461681842803955,
      "learning_rate": 4.660751541114641e-06,
      "loss": 1.3176,
      "step": 599
    },
    {
      "epoch": 1.6863572433192686,
      "grad_norm": 2.259167194366455,
      "learning_rate": 4.645698579398907e-06,
      "loss": 1.145,
      "step": 600
    },
    {
      "epoch": 1.6863572433192686,
      "eval_loss": 0.6439154744148254,
      "eval_runtime": 2.7846,
      "eval_samples_per_second": 9.337,
      "eval_steps_per_second": 1.436,
      "step": 600
    },
    {
      "epoch": 1.6863572433192686,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 596.375,
      "eval_avg_mem_token_accuracy": 0.24822695035460993,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.008178525528683258,
      "eval_avg_mem_token_rate": 0.5693474356415885,
      "eval_avg_mem_token_recall(Accuracy)": 0.24822695035460993,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 600,
      "eval_loss": 0.6439154744148254,
      "eval_num_samples": 30,
      "eval_runtime": 2.7846,
      "eval_samples_per_second": 9.337,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.436,
      "eval_total_correct_count": 70,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8559,
      "step": 600
    },
    {
      "epoch": 1.6891701828410688,
      "grad_norm": 2.261350154876709,
      "learning_rate": 4.630648844474271e-06,
      "loss": 1.3461,
      "step": 601
    },
    {
      "epoch": 1.6919831223628692,
      "grad_norm": 2.463414192199707,
      "learning_rate": 4.615602473405812e-06,
      "loss": 1.1112,
      "step": 602
    },
    {
      "epoch": 1.6947960618846696,
      "grad_norm": 2.262482166290283,
      "learning_rate": 4.600559603227963e-06,
      "loss": 1.208,
      "step": 603
    },
    {
      "epoch": 1.6976090014064698,
      "grad_norm": 2.235854387283325,
      "learning_rate": 4.585520370943285e-06,
      "loss": 0.8357,
      "step": 604
    },
    {
      "epoch": 1.70042194092827,
      "grad_norm": 2.0354301929473877,
      "learning_rate": 4.570484913521196e-06,
      "loss": 0.9843,
      "step": 605
    },
    {
      "epoch": 1.7032348804500703,
      "grad_norm": 2.3465640544891357,
      "learning_rate": 4.55545336789674e-06,
      "loss": 1.2206,
      "step": 606
    },
    {
      "epoch": 1.7060478199718707,
      "grad_norm": 1.846433162689209,
      "learning_rate": 4.540425870969332e-06,
      "loss": 0.9545,
      "step": 607
    },
    {
      "epoch": 1.7088607594936709,
      "grad_norm": 2.3210694789886475,
      "learning_rate": 4.5254025596015175e-06,
      "loss": 1.2733,
      "step": 608
    },
    {
      "epoch": 1.711673699015471,
      "grad_norm": 2.5384347438812256,
      "learning_rate": 4.510383570617716e-06,
      "loss": 1.2064,
      "step": 609
    },
    {
      "epoch": 1.7144866385372715,
      "grad_norm": 2.0778439044952393,
      "learning_rate": 4.495369040802988e-06,
      "loss": 1.1119,
      "step": 610
    },
    {
      "epoch": 1.7172995780590719,
      "grad_norm": 2.212078332901001,
      "learning_rate": 4.480359106901775e-06,
      "loss": 1.1948,
      "step": 611
    },
    {
      "epoch": 1.720112517580872,
      "grad_norm": 2.3751208782196045,
      "learning_rate": 4.465353905616668e-06,
      "loss": 1.2253,
      "step": 612
    },
    {
      "epoch": 1.7229254571026722,
      "grad_norm": 2.196316957473755,
      "learning_rate": 4.4503535736071505e-06,
      "loss": 1.159,
      "step": 613
    },
    {
      "epoch": 1.7257383966244726,
      "grad_norm": 2.1474740505218506,
      "learning_rate": 4.435358247488365e-06,
      "loss": 1.143,
      "step": 614
    },
    {
      "epoch": 1.728551336146273,
      "grad_norm": 2.5476577281951904,
      "learning_rate": 4.420368063829854e-06,
      "loss": 1.157,
      "step": 615
    },
    {
      "epoch": 1.7313642756680732,
      "grad_norm": 2.186852216720581,
      "learning_rate": 4.405383159154337e-06,
      "loss": 1.1052,
      "step": 616
    },
    {
      "epoch": 1.7341772151898733,
      "grad_norm": 2.162107467651367,
      "learning_rate": 4.390403669936443e-06,
      "loss": 1.1342,
      "step": 617
    },
    {
      "epoch": 1.7369901547116737,
      "grad_norm": 2.093745470046997,
      "learning_rate": 4.37542973260149e-06,
      "loss": 0.9557,
      "step": 618
    },
    {
      "epoch": 1.7398030942334741,
      "grad_norm": 1.8521722555160522,
      "learning_rate": 4.3604614835242255e-06,
      "loss": 1.0542,
      "step": 619
    },
    {
      "epoch": 1.7426160337552743,
      "grad_norm": 2.1983838081359863,
      "learning_rate": 4.3454990590275966e-06,
      "loss": 0.7818,
      "step": 620
    },
    {
      "epoch": 1.7454289732770745,
      "grad_norm": 2.261500597000122,
      "learning_rate": 4.3305425953814985e-06,
      "loss": 1.1948,
      "step": 621
    },
    {
      "epoch": 1.7482419127988749,
      "grad_norm": 2.4740712642669678,
      "learning_rate": 4.315592228801543e-06,
      "loss": 1.3438,
      "step": 622
    },
    {
      "epoch": 1.7510548523206753,
      "grad_norm": 2.277127981185913,
      "learning_rate": 4.300648095447806e-06,
      "loss": 1.2477,
      "step": 623
    },
    {
      "epoch": 1.7538677918424754,
      "grad_norm": 2.1069774627685547,
      "learning_rate": 4.285710331423603e-06,
      "loss": 1.208,
      "step": 624
    },
    {
      "epoch": 1.7566807313642756,
      "grad_norm": 2.1714632511138916,
      "learning_rate": 4.2707790727742315e-06,
      "loss": 1.2219,
      "step": 625
    },
    {
      "epoch": 1.759493670886076,
      "grad_norm": 2.2100682258605957,
      "learning_rate": 4.255854455485753e-06,
      "loss": 1.284,
      "step": 626
    },
    {
      "epoch": 1.7623066104078764,
      "grad_norm": 2.0882930755615234,
      "learning_rate": 4.24093661548373e-06,
      "loss": 1.1695,
      "step": 627
    },
    {
      "epoch": 1.7651195499296763,
      "grad_norm": 2.3131346702575684,
      "learning_rate": 4.226025688632013e-06,
      "loss": 1.1353,
      "step": 628
    },
    {
      "epoch": 1.7679324894514767,
      "grad_norm": 2.0631368160247803,
      "learning_rate": 4.211121810731485e-06,
      "loss": 1.175,
      "step": 629
    },
    {
      "epoch": 1.7707454289732771,
      "grad_norm": 2.4987428188323975,
      "learning_rate": 4.196225117518828e-06,
      "loss": 1.2522,
      "step": 630
    },
    {
      "epoch": 1.7735583684950773,
      "grad_norm": 1.8051552772521973,
      "learning_rate": 4.181335744665299e-06,
      "loss": 1.0842,
      "step": 631
    },
    {
      "epoch": 1.7763713080168775,
      "grad_norm": 2.0841329097747803,
      "learning_rate": 4.166453827775474e-06,
      "loss": 1.331,
      "step": 632
    },
    {
      "epoch": 1.7791842475386779,
      "grad_norm": 2.309027910232544,
      "learning_rate": 4.1515795023860325e-06,
      "loss": 1.2727,
      "step": 633
    },
    {
      "epoch": 1.7819971870604783,
      "grad_norm": 2.1550230979919434,
      "learning_rate": 4.136712903964511e-06,
      "loss": 1.2984,
      "step": 634
    },
    {
      "epoch": 1.7848101265822784,
      "grad_norm": 1.9745640754699707,
      "learning_rate": 4.121854167908072e-06,
      "loss": 0.8655,
      "step": 635
    },
    {
      "epoch": 1.7876230661040786,
      "grad_norm": 1.838762879371643,
      "learning_rate": 4.107003429542273e-06,
      "loss": 0.8657,
      "step": 636
    },
    {
      "epoch": 1.790436005625879,
      "grad_norm": 3.8649277687072754,
      "learning_rate": 4.092160824119836e-06,
      "loss": 1.0927,
      "step": 637
    },
    {
      "epoch": 1.7932489451476794,
      "grad_norm": 1.946352481842041,
      "learning_rate": 4.077326486819405e-06,
      "loss": 0.922,
      "step": 638
    },
    {
      "epoch": 1.7960618846694796,
      "grad_norm": 1.9564697742462158,
      "learning_rate": 4.06250055274433e-06,
      "loss": 1.1767,
      "step": 639
    },
    {
      "epoch": 1.7988748241912798,
      "grad_norm": 2.0671567916870117,
      "learning_rate": 4.047683156921422e-06,
      "loss": 1.1347,
      "step": 640
    },
    {
      "epoch": 1.8016877637130801,
      "grad_norm": 2.086289167404175,
      "learning_rate": 4.0328744342997355e-06,
      "loss": 1.2172,
      "step": 641
    },
    {
      "epoch": 1.8045007032348805,
      "grad_norm": 1.74513578414917,
      "learning_rate": 4.0180745197493295e-06,
      "loss": 1.1084,
      "step": 642
    },
    {
      "epoch": 1.8073136427566807,
      "grad_norm": 2.2042808532714844,
      "learning_rate": 4.0032835480600516e-06,
      "loss": 1.3802,
      "step": 643
    },
    {
      "epoch": 1.810126582278481,
      "grad_norm": 2.1729772090911865,
      "learning_rate": 3.9885016539402896e-06,
      "loss": 1.1866,
      "step": 644
    },
    {
      "epoch": 1.8129395218002813,
      "grad_norm": 2.0441439151763916,
      "learning_rate": 3.973728972015771e-06,
      "loss": 1.1282,
      "step": 645
    },
    {
      "epoch": 1.8157524613220817,
      "grad_norm": 2.044088125228882,
      "learning_rate": 3.958965636828314e-06,
      "loss": 1.0972,
      "step": 646
    },
    {
      "epoch": 1.8185654008438819,
      "grad_norm": 2.1738321781158447,
      "learning_rate": 3.944211782834618e-06,
      "loss": 1.1018,
      "step": 647
    },
    {
      "epoch": 1.821378340365682,
      "grad_norm": 2.4498589038848877,
      "learning_rate": 3.929467544405027e-06,
      "loss": 1.1727,
      "step": 648
    },
    {
      "epoch": 1.8241912798874824,
      "grad_norm": 2.110391616821289,
      "learning_rate": 3.9147330558223175e-06,
      "loss": 1.2465,
      "step": 649
    },
    {
      "epoch": 1.8270042194092828,
      "grad_norm": 2.273608684539795,
      "learning_rate": 3.900008451280462e-06,
      "loss": 1.1749,
      "step": 650
    },
    {
      "epoch": 1.8270042194092828,
      "eval_loss": 0.6407925486564636,
      "eval_runtime": 2.8075,
      "eval_samples_per_second": 9.261,
      "eval_steps_per_second": 1.425,
      "step": 650
    },
    {
      "epoch": 1.8270042194092828,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 601.5,
      "eval_avg_mem_token_accuracy": 0.25177304964539005,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.0082385704339754,
      "eval_avg_mem_token_rate": 0.5732721346371317,
      "eval_avg_mem_token_recall(Accuracy)": 0.25177304964539005,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 650,
      "eval_loss": 0.6407925486564636,
      "eval_num_samples": 30,
      "eval_runtime": 2.8075,
      "eval_samples_per_second": 9.261,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.425,
      "eval_total_correct_count": 71,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8618,
      "step": 650
    },
    {
      "epoch": 1.829817158931083,
      "grad_norm": 2.3315672874450684,
      "learning_rate": 3.885293864883423e-06,
      "loss": 1.1839,
      "step": 651
    },
    {
      "epoch": 1.8326300984528832,
      "grad_norm": 2.203946828842163,
      "learning_rate": 3.870589430643915e-06,
      "loss": 1.1069,
      "step": 652
    },
    {
      "epoch": 1.8354430379746836,
      "grad_norm": 2.159895896911621,
      "learning_rate": 3.8558952824822e-06,
      "loss": 1.147,
      "step": 653
    },
    {
      "epoch": 1.838255977496484,
      "grad_norm": 2.023045301437378,
      "learning_rate": 3.84121155422485e-06,
      "loss": 0.888,
      "step": 654
    },
    {
      "epoch": 1.8410689170182841,
      "grad_norm": 2.383005380630493,
      "learning_rate": 3.826538379603549e-06,
      "loss": 1.4156,
      "step": 655
    },
    {
      "epoch": 1.8438818565400843,
      "grad_norm": 2.3636224269866943,
      "learning_rate": 3.8118758922538533e-06,
      "loss": 1.0916,
      "step": 656
    },
    {
      "epoch": 1.8466947960618847,
      "grad_norm": 2.039092779159546,
      "learning_rate": 3.7972242257139953e-06,
      "loss": 1.2214,
      "step": 657
    },
    {
      "epoch": 1.849507735583685,
      "grad_norm": 2.0451226234436035,
      "learning_rate": 3.782583513423647e-06,
      "loss": 1.3025,
      "step": 658
    },
    {
      "epoch": 1.8523206751054853,
      "grad_norm": 2.2477307319641113,
      "learning_rate": 3.7679538887227247e-06,
      "loss": 1.3284,
      "step": 659
    },
    {
      "epoch": 1.8551336146272854,
      "grad_norm": 2.366098165512085,
      "learning_rate": 3.753335484850157e-06,
      "loss": 1.2683,
      "step": 660
    },
    {
      "epoch": 1.8579465541490858,
      "grad_norm": 2.1643450260162354,
      "learning_rate": 3.738728434942684e-06,
      "loss": 1.1879,
      "step": 661
    },
    {
      "epoch": 1.8607594936708862,
      "grad_norm": 2.3253345489501953,
      "learning_rate": 3.7241328720336377e-06,
      "loss": 1.2502,
      "step": 662
    },
    {
      "epoch": 1.8635724331926864,
      "grad_norm": 1.8580361604690552,
      "learning_rate": 3.709548929051732e-06,
      "loss": 0.9708,
      "step": 663
    },
    {
      "epoch": 1.8663853727144866,
      "grad_norm": 2.173644542694092,
      "learning_rate": 3.6949767388198554e-06,
      "loss": 1.2449,
      "step": 664
    },
    {
      "epoch": 1.869198312236287,
      "grad_norm": 1.964975357055664,
      "learning_rate": 3.680416434053854e-06,
      "loss": 1.1799,
      "step": 665
    },
    {
      "epoch": 1.8720112517580874,
      "grad_norm": 2.169707775115967,
      "learning_rate": 3.6658681473613333e-06,
      "loss": 1.2694,
      "step": 666
    },
    {
      "epoch": 1.8748241912798875,
      "grad_norm": 1.9698622226715088,
      "learning_rate": 3.651332011240437e-06,
      "loss": 1.1431,
      "step": 667
    },
    {
      "epoch": 1.8776371308016877,
      "grad_norm": 2.4650795459747314,
      "learning_rate": 3.636808158078656e-06,
      "loss": 1.3374,
      "step": 668
    },
    {
      "epoch": 1.880450070323488,
      "grad_norm": 1.978132724761963,
      "learning_rate": 3.622296720151608e-06,
      "loss": 0.9086,
      "step": 669
    },
    {
      "epoch": 1.8832630098452883,
      "grad_norm": 1.8494510650634766,
      "learning_rate": 3.607797829621843e-06,
      "loss": 1.0412,
      "step": 670
    },
    {
      "epoch": 1.8860759493670884,
      "grad_norm": 2.31000018119812,
      "learning_rate": 3.5933116185376325e-06,
      "loss": 1.2616,
      "step": 671
    },
    {
      "epoch": 1.8888888888888888,
      "grad_norm": 2.1177399158477783,
      "learning_rate": 3.578838218831776e-06,
      "loss": 1.0584,
      "step": 672
    },
    {
      "epoch": 1.8917018284106892,
      "grad_norm": 2.711202621459961,
      "learning_rate": 3.5643777623203857e-06,
      "loss": 1.4235,
      "step": 673
    },
    {
      "epoch": 1.8945147679324894,
      "grad_norm": 2.0394771099090576,
      "learning_rate": 3.5499303807017018e-06,
      "loss": 1.0978,
      "step": 674
    },
    {
      "epoch": 1.8973277074542896,
      "grad_norm": 1.9236093759536743,
      "learning_rate": 3.5354962055548802e-06,
      "loss": 1.0943,
      "step": 675
    },
    {
      "epoch": 1.90014064697609,
      "grad_norm": 2.159970283508301,
      "learning_rate": 3.5210753683388014e-06,
      "loss": 1.1188,
      "step": 676
    },
    {
      "epoch": 1.9029535864978904,
      "grad_norm": 2.201075315475464,
      "learning_rate": 3.5066680003908695e-06,
      "loss": 1.0096,
      "step": 677
    },
    {
      "epoch": 1.9057665260196905,
      "grad_norm": 2.2006876468658447,
      "learning_rate": 3.4922742329258207e-06,
      "loss": 1.2433,
      "step": 678
    },
    {
      "epoch": 1.9085794655414907,
      "grad_norm": 2.1321656703948975,
      "learning_rate": 3.47789419703452e-06,
      "loss": 1.2714,
      "step": 679
    },
    {
      "epoch": 1.9113924050632911,
      "grad_norm": 2.141841173171997,
      "learning_rate": 3.463528023682779e-06,
      "loss": 1.0148,
      "step": 680
    },
    {
      "epoch": 1.9142053445850915,
      "grad_norm": 2.4476535320281982,
      "learning_rate": 3.4491758437101487e-06,
      "loss": 1.2952,
      "step": 681
    },
    {
      "epoch": 1.9170182841068917,
      "grad_norm": 2.855252742767334,
      "learning_rate": 3.4348377878287443e-06,
      "loss": 1.0821,
      "step": 682
    },
    {
      "epoch": 1.9198312236286919,
      "grad_norm": 2.2479875087738037,
      "learning_rate": 3.4205139866220384e-06,
      "loss": 0.9025,
      "step": 683
    },
    {
      "epoch": 1.9226441631504922,
      "grad_norm": 1.734316349029541,
      "learning_rate": 3.4062045705436863e-06,
      "loss": 0.9917,
      "step": 684
    },
    {
      "epoch": 1.9254571026722926,
      "grad_norm": 1.7392464876174927,
      "learning_rate": 3.391909669916324e-06,
      "loss": 0.6617,
      "step": 685
    },
    {
      "epoch": 1.9282700421940928,
      "grad_norm": 2.1003048419952393,
      "learning_rate": 3.3776294149303956e-06,
      "loss": 1.2154,
      "step": 686
    },
    {
      "epoch": 1.931082981715893,
      "grad_norm": 2.3303074836730957,
      "learning_rate": 3.3633639356429564e-06,
      "loss": 1.2461,
      "step": 687
    },
    {
      "epoch": 1.9338959212376934,
      "grad_norm": 2.2976810932159424,
      "learning_rate": 3.3491133619764925e-06,
      "loss": 1.3707,
      "step": 688
    },
    {
      "epoch": 1.9367088607594938,
      "grad_norm": 1.9439120292663574,
      "learning_rate": 3.334877823717737e-06,
      "loss": 0.9291,
      "step": 689
    },
    {
      "epoch": 1.939521800281294,
      "grad_norm": 2.5753273963928223,
      "learning_rate": 3.3206574505164934e-06,
      "loss": 1.0634,
      "step": 690
    },
    {
      "epoch": 1.9423347398030941,
      "grad_norm": 2.2259931564331055,
      "learning_rate": 3.306452371884441e-06,
      "loss": 1.1333,
      "step": 691
    },
    {
      "epoch": 1.9451476793248945,
      "grad_norm": 2.0289406776428223,
      "learning_rate": 3.2922627171939726e-06,
      "loss": 1.138,
      "step": 692
    },
    {
      "epoch": 1.947960618846695,
      "grad_norm": 2.4240784645080566,
      "learning_rate": 3.2780886156770016e-06,
      "loss": 1.1418,
      "step": 693
    },
    {
      "epoch": 1.950773558368495,
      "grad_norm": 2.215083122253418,
      "learning_rate": 3.263930196423797e-06,
      "loss": 1.42,
      "step": 694
    },
    {
      "epoch": 1.9535864978902953,
      "grad_norm": 2.2829818725585938,
      "learning_rate": 3.2497875883817955e-06,
      "loss": 1.1413,
      "step": 695
    },
    {
      "epoch": 1.9563994374120957,
      "grad_norm": 2.153489828109741,
      "learning_rate": 3.2356609203544387e-06,
      "loss": 1.2167,
      "step": 696
    },
    {
      "epoch": 1.959212376933896,
      "grad_norm": 1.974264144897461,
      "learning_rate": 3.2215503209999952e-06,
      "loss": 1.1241,
      "step": 697
    },
    {
      "epoch": 1.9620253164556962,
      "grad_norm": 1.9400849342346191,
      "learning_rate": 3.207455918830384e-06,
      "loss": 1.036,
      "step": 698
    },
    {
      "epoch": 1.9648382559774964,
      "grad_norm": 2.141404628753662,
      "learning_rate": 3.193377842210014e-06,
      "loss": 1.1286,
      "step": 699
    },
    {
      "epoch": 1.9676511954992968,
      "grad_norm": 2.2581005096435547,
      "learning_rate": 3.179316219354602e-06,
      "loss": 1.385,
      "step": 700
    },
    {
      "epoch": 1.9676511954992968,
      "eval_loss": 0.6409177184104919,
      "eval_runtime": 2.8079,
      "eval_samples_per_second": 9.26,
      "eval_steps_per_second": 1.425,
      "step": 700
    },
    {
      "epoch": 1.9676511954992968,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 603.5,
      "eval_avg_mem_token_accuracy": 0.25177304964539005,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.008195775135634306,
      "eval_avg_mem_token_rate": 0.5762655491252577,
      "eval_avg_mem_token_recall(Accuracy)": 0.25177304964539005,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 700,
      "eval_loss": 0.6409177184104919,
      "eval_num_samples": 30,
      "eval_runtime": 2.8079,
      "eval_samples_per_second": 9.26,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.425,
      "eval_total_correct_count": 71,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8663,
      "step": 700
    },
    {
      "epoch": 1.9704641350210972,
      "grad_norm": 2.2288899421691895,
      "learning_rate": 3.1652711783300234e-06,
      "loss": 1.3147,
      "step": 701
    },
    {
      "epoch": 1.9732770745428974,
      "grad_norm": 2.327530860900879,
      "learning_rate": 3.1512428470511257e-06,
      "loss": 1.2538,
      "step": 702
    },
    {
      "epoch": 1.9760900140646975,
      "grad_norm": 1.8935436010360718,
      "learning_rate": 3.1372313532805766e-06,
      "loss": 0.8867,
      "step": 703
    },
    {
      "epoch": 1.978902953586498,
      "grad_norm": 2.1964917182922363,
      "learning_rate": 3.1232368246276956e-06,
      "loss": 1.1226,
      "step": 704
    },
    {
      "epoch": 1.9817158931082983,
      "grad_norm": 2.11517333984375,
      "learning_rate": 3.1092593885472965e-06,
      "loss": 1.1076,
      "step": 705
    },
    {
      "epoch": 1.9845288326300985,
      "grad_norm": 2.36454439163208,
      "learning_rate": 3.0952991723385152e-06,
      "loss": 1.1308,
      "step": 706
    },
    {
      "epoch": 1.9873417721518987,
      "grad_norm": 4.362302780151367,
      "learning_rate": 3.0813563031436676e-06,
      "loss": 1.3241,
      "step": 707
    },
    {
      "epoch": 1.990154711673699,
      "grad_norm": 2.1657958030700684,
      "learning_rate": 3.067430907947073e-06,
      "loss": 1.1269,
      "step": 708
    },
    {
      "epoch": 1.9929676511954995,
      "grad_norm": 1.7424006462097168,
      "learning_rate": 3.053523113573914e-06,
      "loss": 0.9743,
      "step": 709
    },
    {
      "epoch": 1.9957805907172996,
      "grad_norm": 2.1487817764282227,
      "learning_rate": 3.039633046689069e-06,
      "loss": 1.0117,
      "step": 710
    },
    {
      "epoch": 1.9985935302390998,
      "grad_norm": 2.059786319732666,
      "learning_rate": 3.0257608337959683e-06,
      "loss": 1.0671,
      "step": 711
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.65206778049469,
      "learning_rate": 3.0119066012354316e-06,
      "loss": 0.5849,
      "step": 712
    },
    {
      "epoch": 2.0028129395218004,
      "grad_norm": 1.849442720413208,
      "learning_rate": 2.9980704751845302e-06,
      "loss": 1.0254,
      "step": 713
    },
    {
      "epoch": 2.0056258790436003,
      "grad_norm": 2.224947690963745,
      "learning_rate": 2.9842525816554237e-06,
      "loss": 1.3435,
      "step": 714
    },
    {
      "epoch": 2.0084388185654007,
      "grad_norm": 2.0207643508911133,
      "learning_rate": 2.9704530464942254e-06,
      "loss": 1.1889,
      "step": 715
    },
    {
      "epoch": 2.011251758087201,
      "grad_norm": 1.9327627420425415,
      "learning_rate": 2.9566719953798474e-06,
      "loss": 0.9725,
      "step": 716
    },
    {
      "epoch": 2.0140646976090015,
      "grad_norm": 2.2062811851501465,
      "learning_rate": 2.942909553822859e-06,
      "loss": 1.1318,
      "step": 717
    },
    {
      "epoch": 2.0168776371308015,
      "grad_norm": 1.9610023498535156,
      "learning_rate": 2.929165847164343e-06,
      "loss": 1.02,
      "step": 718
    },
    {
      "epoch": 2.019690576652602,
      "grad_norm": 2.012442111968994,
      "learning_rate": 2.9154410005747586e-06,
      "loss": 1.073,
      "step": 719
    },
    {
      "epoch": 2.0225035161744023,
      "grad_norm": 1.9642077684402466,
      "learning_rate": 2.901735139052787e-06,
      "loss": 1.0427,
      "step": 720
    },
    {
      "epoch": 2.0253164556962027,
      "grad_norm": 2.19358491897583,
      "learning_rate": 2.888048387424218e-06,
      "loss": 1.1162,
      "step": 721
    },
    {
      "epoch": 2.0281293952180026,
      "grad_norm": 1.9871453046798706,
      "learning_rate": 2.8743808703407866e-06,
      "loss": 1.1066,
      "step": 722
    },
    {
      "epoch": 2.030942334739803,
      "grad_norm": 2.278085947036743,
      "learning_rate": 2.8607327122790555e-06,
      "loss": 1.1253,
      "step": 723
    },
    {
      "epoch": 2.0337552742616034,
      "grad_norm": 1.7093780040740967,
      "learning_rate": 2.8471040375392745e-06,
      "loss": 1.0754,
      "step": 724
    },
    {
      "epoch": 2.036568213783404,
      "grad_norm": 2.088590621948242,
      "learning_rate": 2.833494970244248e-06,
      "loss": 1.2312,
      "step": 725
    },
    {
      "epoch": 2.0393811533052038,
      "grad_norm": 1.8987199068069458,
      "learning_rate": 2.819905634338208e-06,
      "loss": 0.9913,
      "step": 726
    },
    {
      "epoch": 2.042194092827004,
      "grad_norm": 2.069563627243042,
      "learning_rate": 2.8063361535856838e-06,
      "loss": 1.1635,
      "step": 727
    },
    {
      "epoch": 2.0450070323488045,
      "grad_norm": 2.440237522125244,
      "learning_rate": 2.7927866515703705e-06,
      "loss": 1.2113,
      "step": 728
    },
    {
      "epoch": 2.047819971870605,
      "grad_norm": 2.0094406604766846,
      "learning_rate": 2.7792572516940108e-06,
      "loss": 0.9271,
      "step": 729
    },
    {
      "epoch": 2.050632911392405,
      "grad_norm": 2.2327640056610107,
      "learning_rate": 2.765748077175272e-06,
      "loss": 1.1026,
      "step": 730
    },
    {
      "epoch": 2.0534458509142053,
      "grad_norm": 2.1008453369140625,
      "learning_rate": 2.752259251048606e-06,
      "loss": 1.1666,
      "step": 731
    },
    {
      "epoch": 2.0562587904360057,
      "grad_norm": 1.8837400674819946,
      "learning_rate": 2.7387908961631597e-06,
      "loss": 0.8817,
      "step": 732
    },
    {
      "epoch": 2.059071729957806,
      "grad_norm": 1.993558645248413,
      "learning_rate": 2.725343135181622e-06,
      "loss": 1.0745,
      "step": 733
    },
    {
      "epoch": 2.061884669479606,
      "grad_norm": 2.122399091720581,
      "learning_rate": 2.711916090579137e-06,
      "loss": 1.1435,
      "step": 734
    },
    {
      "epoch": 2.0646976090014064,
      "grad_norm": 2.0384397506713867,
      "learning_rate": 2.698509884642163e-06,
      "loss": 1.181,
      "step": 735
    },
    {
      "epoch": 2.067510548523207,
      "grad_norm": 2.315969944000244,
      "learning_rate": 2.6851246394673822e-06,
      "loss": 0.9172,
      "step": 736
    },
    {
      "epoch": 2.070323488045007,
      "grad_norm": 1.8696023225784302,
      "learning_rate": 2.67176047696057e-06,
      "loss": 0.9634,
      "step": 737
    },
    {
      "epoch": 2.073136427566807,
      "grad_norm": 2.3400771617889404,
      "learning_rate": 2.6584175188354934e-06,
      "loss": 1.1388,
      "step": 738
    },
    {
      "epoch": 2.0759493670886076,
      "grad_norm": 2.0902152061462402,
      "learning_rate": 2.6450958866128e-06,
      "loss": 0.9649,
      "step": 739
    },
    {
      "epoch": 2.078762306610408,
      "grad_norm": 1.8135625123977661,
      "learning_rate": 2.6317957016189155e-06,
      "loss": 1.1267,
      "step": 740
    },
    {
      "epoch": 2.0815752461322083,
      "grad_norm": 1.949086308479309,
      "learning_rate": 2.618517084984933e-06,
      "loss": 1.056,
      "step": 741
    },
    {
      "epoch": 2.0843881856540083,
      "grad_norm": 2.1474437713623047,
      "learning_rate": 2.6052601576455116e-06,
      "loss": 1.1126,
      "step": 742
    },
    {
      "epoch": 2.0872011251758087,
      "grad_norm": 2.2054314613342285,
      "learning_rate": 2.592025040337779e-06,
      "loss": 1.1921,
      "step": 743
    },
    {
      "epoch": 2.090014064697609,
      "grad_norm": 1.9321085214614868,
      "learning_rate": 2.578811853600226e-06,
      "loss": 0.9129,
      "step": 744
    },
    {
      "epoch": 2.0928270042194095,
      "grad_norm": 2.050908327102661,
      "learning_rate": 2.5656207177716107e-06,
      "loss": 1.0466,
      "step": 745
    },
    {
      "epoch": 2.0956399437412094,
      "grad_norm": 2.335043430328369,
      "learning_rate": 2.552451752989865e-06,
      "loss": 0.9907,
      "step": 746
    },
    {
      "epoch": 2.09845288326301,
      "grad_norm": 2.1719613075256348,
      "learning_rate": 2.539305079190999e-06,
      "loss": 1.1855,
      "step": 747
    },
    {
      "epoch": 2.1012658227848102,
      "grad_norm": 2.2501490116119385,
      "learning_rate": 2.5261808161080047e-06,
      "loss": 1.1693,
      "step": 748
    },
    {
      "epoch": 2.1040787623066106,
      "grad_norm": 2.1329755783081055,
      "learning_rate": 2.513079083269774e-06,
      "loss": 1.1507,
      "step": 749
    },
    {
      "epoch": 2.1068917018284106,
      "grad_norm": 1.9924427270889282,
      "learning_rate": 2.5000000000000015e-06,
      "loss": 1.035,
      "step": 750
    },
    {
      "epoch": 2.1068917018284106,
      "eval_loss": 0.6396089792251587,
      "eval_runtime": 2.846,
      "eval_samples_per_second": 9.136,
      "eval_steps_per_second": 1.405,
      "step": 750
    },
    {
      "epoch": 2.1068917018284106,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 596.5,
      "eval_avg_mem_token_accuracy": 0.2553191489361702,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.00837404047452896,
      "eval_avg_mem_token_rate": 0.5719417281979645,
      "eval_avg_mem_token_recall(Accuracy)": 0.2553191489361702,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 750,
      "eval_loss": 0.6396089792251587,
      "eval_num_samples": 30,
      "eval_runtime": 2.846,
      "eval_samples_per_second": 9.136,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.405,
      "eval_total_correct_count": 72,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8598,
      "step": 750
    },
    {
      "epoch": 2.109704641350211,
      "grad_norm": 1.8336857557296753,
      "learning_rate": 2.4869436854161e-06,
      "loss": 0.9486,
      "step": 751
    },
    {
      "epoch": 2.1125175808720114,
      "grad_norm": 2.0312447547912598,
      "learning_rate": 2.4739102584281268e-06,
      "loss": 1.2113,
      "step": 752
    },
    {
      "epoch": 2.1153305203938118,
      "grad_norm": 2.0355682373046875,
      "learning_rate": 2.4608998377376752e-06,
      "loss": 1.1002,
      "step": 753
    },
    {
      "epoch": 2.1181434599156117,
      "grad_norm": 2.6331751346588135,
      "learning_rate": 2.447912541836826e-06,
      "loss": 1.1891,
      "step": 754
    },
    {
      "epoch": 2.120956399437412,
      "grad_norm": 2.6497652530670166,
      "learning_rate": 2.4349484890070357e-06,
      "loss": 1.0924,
      "step": 755
    },
    {
      "epoch": 2.1237693389592125,
      "grad_norm": 1.9082729816436768,
      "learning_rate": 2.4220077973180906e-06,
      "loss": 1.0445,
      "step": 756
    },
    {
      "epoch": 2.1265822784810124,
      "grad_norm": 1.8643864393234253,
      "learning_rate": 2.4090905846270006e-06,
      "loss": 1.0385,
      "step": 757
    },
    {
      "epoch": 2.129395218002813,
      "grad_norm": 2.0666754245758057,
      "learning_rate": 2.396196968576957e-06,
      "loss": 1.2737,
      "step": 758
    },
    {
      "epoch": 2.1322081575246132,
      "grad_norm": 2.5806944370269775,
      "learning_rate": 2.3833270665962293e-06,
      "loss": 0.9353,
      "step": 759
    },
    {
      "epoch": 2.1350210970464136,
      "grad_norm": 2.0371792316436768,
      "learning_rate": 2.370480995897127e-06,
      "loss": 1.1003,
      "step": 760
    },
    {
      "epoch": 2.1378340365682136,
      "grad_norm": 1.9753756523132324,
      "learning_rate": 2.3576588734749022e-06,
      "loss": 0.9872,
      "step": 761
    },
    {
      "epoch": 2.140646976090014,
      "grad_norm": 2.2429325580596924,
      "learning_rate": 2.3448608161067117e-06,
      "loss": 1.0195,
      "step": 762
    },
    {
      "epoch": 2.1434599156118144,
      "grad_norm": 1.8056210279464722,
      "learning_rate": 2.3320869403505324e-06,
      "loss": 0.9248,
      "step": 763
    },
    {
      "epoch": 2.1462728551336148,
      "grad_norm": 1.9145182371139526,
      "learning_rate": 2.3193373625441113e-06,
      "loss": 0.9601,
      "step": 764
    },
    {
      "epoch": 2.1490857946554147,
      "grad_norm": 2.0845413208007812,
      "learning_rate": 2.3066121988038996e-06,
      "loss": 1.1699,
      "step": 765
    },
    {
      "epoch": 2.151898734177215,
      "grad_norm": 1.9216276407241821,
      "learning_rate": 2.2939115650240008e-06,
      "loss": 1.0108,
      "step": 766
    },
    {
      "epoch": 2.1547116736990155,
      "grad_norm": 2.0462570190429688,
      "learning_rate": 2.2812355768751106e-06,
      "loss": 0.8837,
      "step": 767
    },
    {
      "epoch": 2.157524613220816,
      "grad_norm": 2.385082721710205,
      "learning_rate": 2.268584349803464e-06,
      "loss": 1.1446,
      "step": 768
    },
    {
      "epoch": 2.160337552742616,
      "grad_norm": 2.243379592895508,
      "learning_rate": 2.2559579990297943e-06,
      "loss": 1.2207,
      "step": 769
    },
    {
      "epoch": 2.1631504922644162,
      "grad_norm": 2.170370101928711,
      "learning_rate": 2.2433566395482577e-06,
      "loss": 1.3006,
      "step": 770
    },
    {
      "epoch": 2.1659634317862166,
      "grad_norm": 2.1776270866394043,
      "learning_rate": 2.2307803861254207e-06,
      "loss": 1.1889,
      "step": 771
    },
    {
      "epoch": 2.168776371308017,
      "grad_norm": 2.114034652709961,
      "learning_rate": 2.218229353299181e-06,
      "loss": 1.2131,
      "step": 772
    },
    {
      "epoch": 2.171589310829817,
      "grad_norm": 2.2640528678894043,
      "learning_rate": 2.2057036553777565e-06,
      "loss": 1.3633,
      "step": 773
    },
    {
      "epoch": 2.1744022503516174,
      "grad_norm": 1.7782313823699951,
      "learning_rate": 2.1932034064386113e-06,
      "loss": 0.9327,
      "step": 774
    },
    {
      "epoch": 2.1772151898734178,
      "grad_norm": 2.046961545944214,
      "learning_rate": 2.1807287203274504e-06,
      "loss": 1.2086,
      "step": 775
    },
    {
      "epoch": 2.180028129395218,
      "grad_norm": 2.103487491607666,
      "learning_rate": 2.168279710657149e-06,
      "loss": 1.0986,
      "step": 776
    },
    {
      "epoch": 2.182841068917018,
      "grad_norm": 2.1570355892181396,
      "learning_rate": 2.1558564908067497e-06,
      "loss": 1.0043,
      "step": 777
    },
    {
      "epoch": 2.1856540084388185,
      "grad_norm": 1.9457972049713135,
      "learning_rate": 2.1434591739204062e-06,
      "loss": 1.067,
      "step": 778
    },
    {
      "epoch": 2.188466947960619,
      "grad_norm": 2.141794204711914,
      "learning_rate": 2.1310878729063645e-06,
      "loss": 1.1144,
      "step": 779
    },
    {
      "epoch": 2.1912798874824193,
      "grad_norm": 1.9879792928695679,
      "learning_rate": 2.118742700435931e-06,
      "loss": 1.0625,
      "step": 780
    },
    {
      "epoch": 2.1940928270042193,
      "grad_norm": 2.3529539108276367,
      "learning_rate": 2.1064237689424483e-06,
      "loss": 1.2867,
      "step": 781
    },
    {
      "epoch": 2.1969057665260197,
      "grad_norm": 2.0593795776367188,
      "learning_rate": 2.0941311906202672e-06,
      "loss": 1.3383,
      "step": 782
    },
    {
      "epoch": 2.19971870604782,
      "grad_norm": 2.1530141830444336,
      "learning_rate": 2.081865077423731e-06,
      "loss": 1.2258,
      "step": 783
    },
    {
      "epoch": 2.2025316455696204,
      "grad_norm": 1.9634898900985718,
      "learning_rate": 2.06962554106615e-06,
      "loss": 1.1629,
      "step": 784
    },
    {
      "epoch": 2.2053445850914204,
      "grad_norm": 2.2565033435821533,
      "learning_rate": 2.0574126930187882e-06,
      "loss": 1.3058,
      "step": 785
    },
    {
      "epoch": 2.208157524613221,
      "grad_norm": 2.420267105102539,
      "learning_rate": 2.0452266445098457e-06,
      "loss": 1.2447,
      "step": 786
    },
    {
      "epoch": 2.210970464135021,
      "grad_norm": 2.2069785594940186,
      "learning_rate": 2.0330675065234466e-06,
      "loss": 1.1835,
      "step": 787
    },
    {
      "epoch": 2.2137834036568216,
      "grad_norm": 2.1070237159729004,
      "learning_rate": 2.0209353897986288e-06,
      "loss": 1.1873,
      "step": 788
    },
    {
      "epoch": 2.2165963431786215,
      "grad_norm": 1.9886164665222168,
      "learning_rate": 2.0088304048283337e-06,
      "loss": 1.0022,
      "step": 789
    },
    {
      "epoch": 2.219409282700422,
      "grad_norm": 2.1714046001434326,
      "learning_rate": 1.9967526618584016e-06,
      "loss": 1.1458,
      "step": 790
    },
    {
      "epoch": 2.2222222222222223,
      "grad_norm": 2.1026611328125,
      "learning_rate": 1.984702270886566e-06,
      "loss": 1.1671,
      "step": 791
    },
    {
      "epoch": 2.2250351617440227,
      "grad_norm": 2.3853933811187744,
      "learning_rate": 1.9726793416614532e-06,
      "loss": 1.2162,
      "step": 792
    },
    {
      "epoch": 2.2278481012658227,
      "grad_norm": 2.1531338691711426,
      "learning_rate": 1.9606839836815872e-06,
      "loss": 1.2844,
      "step": 793
    },
    {
      "epoch": 2.230661040787623,
      "grad_norm": 2.198315143585205,
      "learning_rate": 1.948716306194376e-06,
      "loss": 1.1015,
      "step": 794
    },
    {
      "epoch": 2.2334739803094235,
      "grad_norm": 1.9941608905792236,
      "learning_rate": 1.9367764181951403e-06,
      "loss": 0.9099,
      "step": 795
    },
    {
      "epoch": 2.2362869198312234,
      "grad_norm": 2.1348161697387695,
      "learning_rate": 1.924864428426103e-06,
      "loss": 0.9096,
      "step": 796
    },
    {
      "epoch": 2.239099859353024,
      "grad_norm": 2.182652235031128,
      "learning_rate": 1.9129804453754053e-06,
      "loss": 1.2748,
      "step": 797
    },
    {
      "epoch": 2.241912798874824,
      "grad_norm": 2.1464662551879883,
      "learning_rate": 1.9011245772761173e-06,
      "loss": 1.2931,
      "step": 798
    },
    {
      "epoch": 2.2447257383966246,
      "grad_norm": 2.15000319480896,
      "learning_rate": 1.889296932105254e-06,
      "loss": 0.9775,
      "step": 799
    },
    {
      "epoch": 2.247538677918425,
      "grad_norm": 2.1729373931884766,
      "learning_rate": 1.8774976175827898e-06,
      "loss": 1.182,
      "step": 800
    },
    {
      "epoch": 2.247538677918425,
      "eval_loss": 0.6389347910881042,
      "eval_runtime": 2.7883,
      "eval_samples_per_second": 9.325,
      "eval_steps_per_second": 1.435,
      "step": 800
    },
    {
      "epoch": 2.247538677918425,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 600.75,
      "eval_avg_mem_token_accuracy": 0.24822695035460993,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.008117824423054622,
      "eval_avg_mem_token_rate": 0.5736047362469234,
      "eval_avg_mem_token_recall(Accuracy)": 0.24822695035460993,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 800,
      "eval_loss": 0.6389347910881042,
      "eval_num_samples": 30,
      "eval_runtime": 2.7883,
      "eval_samples_per_second": 9.325,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.435,
      "eval_total_correct_count": 70,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8623,
      "step": 800
    },
    {
      "epoch": 2.250351617440225,
      "grad_norm": 2.0819458961486816,
      "learning_rate": 1.8657267411706802e-06,
      "loss": 1.0104,
      "step": 801
    },
    {
      "epoch": 2.2531645569620253,
      "grad_norm": 2.394252061843872,
      "learning_rate": 1.853984410071879e-06,
      "loss": 1.249,
      "step": 802
    },
    {
      "epoch": 2.2559774964838257,
      "grad_norm": 2.0108907222747803,
      "learning_rate": 1.8422707312293663e-06,
      "loss": 1.0054,
      "step": 803
    },
    {
      "epoch": 2.2587904360056257,
      "grad_norm": 2.035367488861084,
      "learning_rate": 1.8305858113251717e-06,
      "loss": 1.052,
      "step": 804
    },
    {
      "epoch": 2.261603375527426,
      "grad_norm": 2.199094772338867,
      "learning_rate": 1.8189297567794029e-06,
      "loss": 1.2031,
      "step": 805
    },
    {
      "epoch": 2.2644163150492265,
      "grad_norm": 2.0634264945983887,
      "learning_rate": 1.8073026737492783e-06,
      "loss": 1.1867,
      "step": 806
    },
    {
      "epoch": 2.267229254571027,
      "grad_norm": 2.314810037612915,
      "learning_rate": 1.7957046681281582e-06,
      "loss": 1.2492,
      "step": 807
    },
    {
      "epoch": 2.270042194092827,
      "grad_norm": 2.0201666355133057,
      "learning_rate": 1.7841358455445807e-06,
      "loss": 1.1079,
      "step": 808
    },
    {
      "epoch": 2.272855133614627,
      "grad_norm": 2.239051342010498,
      "learning_rate": 1.7725963113612998e-06,
      "loss": 1.1677,
      "step": 809
    },
    {
      "epoch": 2.2756680731364276,
      "grad_norm": 2.3143956661224365,
      "learning_rate": 1.7610861706743316e-06,
      "loss": 1.1724,
      "step": 810
    },
    {
      "epoch": 2.278481012658228,
      "grad_norm": 2.3886356353759766,
      "learning_rate": 1.7496055283119812e-06,
      "loss": 1.2109,
      "step": 811
    },
    {
      "epoch": 2.281293952180028,
      "grad_norm": 2.2909440994262695,
      "learning_rate": 1.7381544888339103e-06,
      "loss": 1.0614,
      "step": 812
    },
    {
      "epoch": 2.2841068917018283,
      "grad_norm": 2.069227695465088,
      "learning_rate": 1.726733156530161e-06,
      "loss": 1.0202,
      "step": 813
    },
    {
      "epoch": 2.2869198312236287,
      "grad_norm": 2.242708683013916,
      "learning_rate": 1.7153416354202307e-06,
      "loss": 1.0972,
      "step": 814
    },
    {
      "epoch": 2.289732770745429,
      "grad_norm": 2.0846173763275146,
      "learning_rate": 1.7039800292520997e-06,
      "loss": 1.1095,
      "step": 815
    },
    {
      "epoch": 2.292545710267229,
      "grad_norm": 1.924421787261963,
      "learning_rate": 1.69264844150131e-06,
      "loss": 1.1585,
      "step": 816
    },
    {
      "epoch": 2.2953586497890295,
      "grad_norm": 1.7929229736328125,
      "learning_rate": 1.6813469753700013e-06,
      "loss": 0.9856,
      "step": 817
    },
    {
      "epoch": 2.29817158931083,
      "grad_norm": 1.9918988943099976,
      "learning_rate": 1.6700757337859907e-06,
      "loss": 1.0617,
      "step": 818
    },
    {
      "epoch": 2.3009845288326303,
      "grad_norm": 2.357882499694824,
      "learning_rate": 1.6588348194018205e-06,
      "loss": 1.0826,
      "step": 819
    },
    {
      "epoch": 2.3037974683544302,
      "grad_norm": 2.163602828979492,
      "learning_rate": 1.6476243345938293e-06,
      "loss": 1.342,
      "step": 820
    },
    {
      "epoch": 2.3066104078762306,
      "grad_norm": 1.7069376707077026,
      "learning_rate": 1.6364443814612207e-06,
      "loss": 0.933,
      "step": 821
    },
    {
      "epoch": 2.309423347398031,
      "grad_norm": 2.1436493396759033,
      "learning_rate": 1.6252950618251311e-06,
      "loss": 1.2028,
      "step": 822
    },
    {
      "epoch": 2.3122362869198314,
      "grad_norm": 2.0016818046569824,
      "learning_rate": 1.614176477227703e-06,
      "loss": 1.1039,
      "step": 823
    },
    {
      "epoch": 2.3150492264416314,
      "grad_norm": 2.098785400390625,
      "learning_rate": 1.6030887289311604e-06,
      "loss": 1.0678,
      "step": 824
    },
    {
      "epoch": 2.3178621659634318,
      "grad_norm": 2.156809091567993,
      "learning_rate": 1.5920319179168859e-06,
      "loss": 1.2103,
      "step": 825
    },
    {
      "epoch": 2.320675105485232,
      "grad_norm": 2.111753463745117,
      "learning_rate": 1.5810061448845028e-06,
      "loss": 1.1346,
      "step": 826
    },
    {
      "epoch": 2.3234880450070325,
      "grad_norm": 2.18839693069458,
      "learning_rate": 1.5700115102509562e-06,
      "loss": 1.1966,
      "step": 827
    },
    {
      "epoch": 2.3263009845288325,
      "grad_norm": 2.2580389976501465,
      "learning_rate": 1.5590481141495988e-06,
      "loss": 1.2102,
      "step": 828
    },
    {
      "epoch": 2.329113924050633,
      "grad_norm": 2.530665874481201,
      "learning_rate": 1.5481160564292802e-06,
      "loss": 1.3096,
      "step": 829
    },
    {
      "epoch": 2.3319268635724333,
      "grad_norm": 2.008321523666382,
      "learning_rate": 1.5372154366534325e-06,
      "loss": 1.0493,
      "step": 830
    },
    {
      "epoch": 2.3347398030942337,
      "grad_norm": 1.8788542747497559,
      "learning_rate": 1.5263463540991769e-06,
      "loss": 1.1453,
      "step": 831
    },
    {
      "epoch": 2.3375527426160336,
      "grad_norm": 2.1390604972839355,
      "learning_rate": 1.5155089077563968e-06,
      "loss": 0.9813,
      "step": 832
    },
    {
      "epoch": 2.340365682137834,
      "grad_norm": 2.1308085918426514,
      "learning_rate": 1.5047031963268617e-06,
      "loss": 1.3274,
      "step": 833
    },
    {
      "epoch": 2.3431786216596344,
      "grad_norm": 2.2323601245880127,
      "learning_rate": 1.49392931822331e-06,
      "loss": 1.1762,
      "step": 834
    },
    {
      "epoch": 2.3459915611814344,
      "grad_norm": 2.2134149074554443,
      "learning_rate": 1.4831873715685597e-06,
      "loss": 1.1039,
      "step": 835
    },
    {
      "epoch": 2.3488045007032348,
      "grad_norm": 1.834775686264038,
      "learning_rate": 1.4724774541946145e-06,
      "loss": 0.9826,
      "step": 836
    },
    {
      "epoch": 2.351617440225035,
      "grad_norm": 1.9355462789535522,
      "learning_rate": 1.461799663641773e-06,
      "loss": 1.0111,
      "step": 837
    },
    {
      "epoch": 2.3544303797468356,
      "grad_norm": 2.2236545085906982,
      "learning_rate": 1.4511540971577377e-06,
      "loss": 1.1159,
      "step": 838
    },
    {
      "epoch": 2.357243319268636,
      "grad_norm": 2.29103946685791,
      "learning_rate": 1.440540851696733e-06,
      "loss": 1.3618,
      "step": 839
    },
    {
      "epoch": 2.360056258790436,
      "grad_norm": 2.335484743118286,
      "learning_rate": 1.429960023918619e-06,
      "loss": 1.165,
      "step": 840
    },
    {
      "epoch": 2.3628691983122363,
      "grad_norm": 2.207131862640381,
      "learning_rate": 1.4194117101880134e-06,
      "loss": 1.11,
      "step": 841
    },
    {
      "epoch": 2.3656821378340367,
      "grad_norm": 1.7570301294326782,
      "learning_rate": 1.4088960065734137e-06,
      "loss": 0.9707,
      "step": 842
    },
    {
      "epoch": 2.3684950773558366,
      "grad_norm": 2.027989149093628,
      "learning_rate": 1.3984130088463204e-06,
      "loss": 1.1416,
      "step": 843
    },
    {
      "epoch": 2.371308016877637,
      "grad_norm": 2.0788614749908447,
      "learning_rate": 1.3879628124803662e-06,
      "loss": 1.0461,
      "step": 844
    },
    {
      "epoch": 2.3741209563994374,
      "grad_norm": 1.9784637689590454,
      "learning_rate": 1.3775455126504466e-06,
      "loss": 1.0517,
      "step": 845
    },
    {
      "epoch": 2.376933895921238,
      "grad_norm": 1.6520678997039795,
      "learning_rate": 1.3671612042318527e-06,
      "loss": 0.8804,
      "step": 846
    },
    {
      "epoch": 2.379746835443038,
      "grad_norm": 2.11843204498291,
      "learning_rate": 1.3568099817994068e-06,
      "loss": 1.0982,
      "step": 847
    },
    {
      "epoch": 2.382559774964838,
      "grad_norm": 2.0866153240203857,
      "learning_rate": 1.3464919396266018e-06,
      "loss": 1.1652,
      "step": 848
    },
    {
      "epoch": 2.3853727144866386,
      "grad_norm": 2.224863052368164,
      "learning_rate": 1.3362071716847424e-06,
      "loss": 1.2356,
      "step": 849
    },
    {
      "epoch": 2.388185654008439,
      "grad_norm": 2.0457394123077393,
      "learning_rate": 1.3259557716420868e-06,
      "loss": 1.2145,
      "step": 850
    },
    {
      "epoch": 2.388185654008439,
      "eval_loss": 0.6384085416793823,
      "eval_runtime": 2.8184,
      "eval_samples_per_second": 9.225,
      "eval_steps_per_second": 1.419,
      "step": 850
    },
    {
      "epoch": 2.388185654008439,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 600.875,
      "eval_avg_mem_token_accuracy": 0.25177304964539005,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.008220446914437884,
      "eval_avg_mem_token_rate": 0.5745360207543404,
      "eval_avg_mem_token_recall(Accuracy)": 0.25177304964539005,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 850,
      "eval_loss": 0.6384085416793823,
      "eval_num_samples": 30,
      "eval_runtime": 2.8184,
      "eval_samples_per_second": 9.225,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.419,
      "eval_total_correct_count": 71,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8637,
      "step": 850
    },
    {
      "epoch": 2.390998593530239,
      "grad_norm": 2.302175760269165,
      "learning_rate": 1.3157378328630027e-06,
      "loss": 1.2569,
      "step": 851
    },
    {
      "epoch": 2.3938115330520393,
      "grad_norm": 2.0771360397338867,
      "learning_rate": 1.3055534484070997e-06,
      "loss": 1.0361,
      "step": 852
    },
    {
      "epoch": 2.3966244725738397,
      "grad_norm": 2.1782445907592773,
      "learning_rate": 1.2954027110284035e-06,
      "loss": 1.1286,
      "step": 853
    },
    {
      "epoch": 2.39943741209564,
      "grad_norm": 2.210466146469116,
      "learning_rate": 1.285285713174489e-06,
      "loss": 1.0967,
      "step": 854
    },
    {
      "epoch": 2.40225035161744,
      "grad_norm": 2.1318819522857666,
      "learning_rate": 1.2752025469856598e-06,
      "loss": 1.1318,
      "step": 855
    },
    {
      "epoch": 2.4050632911392404,
      "grad_norm": 2.405397653579712,
      "learning_rate": 1.2651533042940883e-06,
      "loss": 1.1057,
      "step": 856
    },
    {
      "epoch": 2.407876230661041,
      "grad_norm": 1.8459330797195435,
      "learning_rate": 1.2551380766230003e-06,
      "loss": 0.9308,
      "step": 857
    },
    {
      "epoch": 2.4106891701828412,
      "grad_norm": 2.1533725261688232,
      "learning_rate": 1.2451569551858183e-06,
      "loss": 1.1996,
      "step": 858
    },
    {
      "epoch": 2.413502109704641,
      "grad_norm": 2.2185754776000977,
      "learning_rate": 1.2352100308853548e-06,
      "loss": 1.3325,
      "step": 859
    },
    {
      "epoch": 2.4163150492264416,
      "grad_norm": 1.8294565677642822,
      "learning_rate": 1.225297394312966e-06,
      "loss": 0.8245,
      "step": 860
    },
    {
      "epoch": 2.419127988748242,
      "grad_norm": 2.1881840229034424,
      "learning_rate": 1.2154191357477352e-06,
      "loss": 1.1655,
      "step": 861
    },
    {
      "epoch": 2.4219409282700424,
      "grad_norm": 1.8707904815673828,
      "learning_rate": 1.205575345155649e-06,
      "loss": 0.9647,
      "step": 862
    },
    {
      "epoch": 2.4247538677918423,
      "grad_norm": 1.8865529298782349,
      "learning_rate": 1.1957661121887782e-06,
      "loss": 0.972,
      "step": 863
    },
    {
      "epoch": 2.4275668073136427,
      "grad_norm": 2.1275415420532227,
      "learning_rate": 1.1859915261844596e-06,
      "loss": 0.9982,
      "step": 864
    },
    {
      "epoch": 2.430379746835443,
      "grad_norm": 2.7815465927124023,
      "learning_rate": 1.1762516761644831e-06,
      "loss": 0.9779,
      "step": 865
    },
    {
      "epoch": 2.4331926863572435,
      "grad_norm": 2.201364517211914,
      "learning_rate": 1.1665466508342876e-06,
      "loss": 1.1864,
      "step": 866
    },
    {
      "epoch": 2.4360056258790435,
      "grad_norm": 1.9111566543579102,
      "learning_rate": 1.1568765385821373e-06,
      "loss": 1.1079,
      "step": 867
    },
    {
      "epoch": 2.438818565400844,
      "grad_norm": 2.0928750038146973,
      "learning_rate": 1.147241427478336e-06,
      "loss": 0.8893,
      "step": 868
    },
    {
      "epoch": 2.4416315049226442,
      "grad_norm": 2.2094082832336426,
      "learning_rate": 1.1376414052744055e-06,
      "loss": 1.1135,
      "step": 869
    },
    {
      "epoch": 2.4444444444444446,
      "grad_norm": 2.2001736164093018,
      "learning_rate": 1.128076559402308e-06,
      "loss": 1.0784,
      "step": 870
    },
    {
      "epoch": 2.4472573839662446,
      "grad_norm": 2.1906962394714355,
      "learning_rate": 1.1185469769736262e-06,
      "loss": 1.0625,
      "step": 871
    },
    {
      "epoch": 2.450070323488045,
      "grad_norm": 2.111055612564087,
      "learning_rate": 1.1090527447787924e-06,
      "loss": 1.0759,
      "step": 872
    },
    {
      "epoch": 2.4528832630098454,
      "grad_norm": 2.1977760791778564,
      "learning_rate": 1.0995939492862783e-06,
      "loss": 1.156,
      "step": 873
    },
    {
      "epoch": 2.4556962025316453,
      "grad_norm": 2.4149186611175537,
      "learning_rate": 1.0901706766418247e-06,
      "loss": 1.0938,
      "step": 874
    },
    {
      "epoch": 2.4585091420534457,
      "grad_norm": 1.9314627647399902,
      "learning_rate": 1.0807830126676444e-06,
      "loss": 0.8718,
      "step": 875
    },
    {
      "epoch": 2.461322081575246,
      "grad_norm": 2.219050168991089,
      "learning_rate": 1.0714310428616464e-06,
      "loss": 0.9997,
      "step": 876
    },
    {
      "epoch": 2.4641350210970465,
      "grad_norm": 1.7131034135818481,
      "learning_rate": 1.0621148523966552e-06,
      "loss": 0.8264,
      "step": 877
    },
    {
      "epoch": 2.466947960618847,
      "grad_norm": 2.0101089477539062,
      "learning_rate": 1.052834526119637e-06,
      "loss": 1.0334,
      "step": 878
    },
    {
      "epoch": 2.469760900140647,
      "grad_norm": 2.2573459148406982,
      "learning_rate": 1.0435901485509254e-06,
      "loss": 1.2282,
      "step": 879
    },
    {
      "epoch": 2.4725738396624473,
      "grad_norm": 2.196690797805786,
      "learning_rate": 1.0343818038834513e-06,
      "loss": 1.013,
      "step": 880
    },
    {
      "epoch": 2.4753867791842477,
      "grad_norm": 2.2671730518341064,
      "learning_rate": 1.0252095759819785e-06,
      "loss": 1.1514,
      "step": 881
    },
    {
      "epoch": 2.4781997187060476,
      "grad_norm": 2.392235279083252,
      "learning_rate": 1.016073548382337e-06,
      "loss": 1.2227,
      "step": 882
    },
    {
      "epoch": 2.481012658227848,
      "grad_norm": 2.245374917984009,
      "learning_rate": 1.0069738042906635e-06,
      "loss": 1.2656,
      "step": 883
    },
    {
      "epoch": 2.4838255977496484,
      "grad_norm": 1.7064595222473145,
      "learning_rate": 9.979104265826438e-07,
      "loss": 0.9954,
      "step": 884
    },
    {
      "epoch": 2.486638537271449,
      "grad_norm": 1.9993723630905151,
      "learning_rate": 9.888834978027589e-07,
      "loss": 1.0137,
      "step": 885
    },
    {
      "epoch": 2.489451476793249,
      "grad_norm": 2.405082941055298,
      "learning_rate": 9.798931001635298e-07,
      "loss": 1.1,
      "step": 886
    },
    {
      "epoch": 2.492264416315049,
      "grad_norm": 2.263054132461548,
      "learning_rate": 9.709393155447734e-07,
      "loss": 1.1043,
      "step": 887
    },
    {
      "epoch": 2.4950773558368495,
      "grad_norm": 2.4851043224334717,
      "learning_rate": 9.62022225492853e-07,
      "loss": 1.4185,
      "step": 888
    },
    {
      "epoch": 2.49789029535865,
      "grad_norm": 2.131120443344116,
      "learning_rate": 9.531419112199375e-07,
      "loss": 1.0574,
      "step": 889
    },
    {
      "epoch": 2.50070323488045,
      "grad_norm": 2.3178141117095947,
      "learning_rate": 9.442984536032612e-07,
      "loss": 1.1726,
      "step": 890
    },
    {
      "epoch": 2.5035161744022503,
      "grad_norm": 2.0481185913085938,
      "learning_rate": 9.354919331843865e-07,
      "loss": 1.1169,
      "step": 891
    },
    {
      "epoch": 2.5063291139240507,
      "grad_norm": 2.4421157836914062,
      "learning_rate": 9.267224301684763e-07,
      "loss": 1.27,
      "step": 892
    },
    {
      "epoch": 2.509142053445851,
      "grad_norm": 2.13606333732605,
      "learning_rate": 9.17990024423549e-07,
      "loss": 1.2005,
      "step": 893
    },
    {
      "epoch": 2.5119549929676515,
      "grad_norm": 2.085256576538086,
      "learning_rate": 9.09294795479771e-07,
      "loss": 0.9328,
      "step": 894
    },
    {
      "epoch": 2.5147679324894514,
      "grad_norm": 1.9264284372329712,
      "learning_rate": 9.006368225287116e-07,
      "loss": 0.8267,
      "step": 895
    },
    {
      "epoch": 2.517580872011252,
      "grad_norm": 1.8938343524932861,
      "learning_rate": 8.920161844226416e-07,
      "loss": 0.9883,
      "step": 896
    },
    {
      "epoch": 2.520393811533052,
      "grad_norm": 2.379265308380127,
      "learning_rate": 8.834329596737995e-07,
      "loss": 1.2038,
      "step": 897
    },
    {
      "epoch": 2.523206751054852,
      "grad_norm": 1.9732309579849243,
      "learning_rate": 8.748872264536856e-07,
      "loss": 1.0939,
      "step": 898
    },
    {
      "epoch": 2.5260196905766525,
      "grad_norm": 1.9441081285476685,
      "learning_rate": 8.663790625923451e-07,
      "loss": 1.1116,
      "step": 899
    },
    {
      "epoch": 2.528832630098453,
      "grad_norm": 1.8037775754928589,
      "learning_rate": 8.57908545577662e-07,
      "loss": 0.9497,
      "step": 900
    },
    {
      "epoch": 2.528832630098453,
      "eval_loss": 0.6382944583892822,
      "eval_runtime": 2.8103,
      "eval_samples_per_second": 9.252,
      "eval_steps_per_second": 1.423,
      "step": 900
    },
    {
      "epoch": 2.528832630098453,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 600.5,
      "eval_avg_mem_token_accuracy": 0.24822695035460993,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.008113120074177098,
      "eval_avg_mem_token_rate": 0.5739373378567152,
      "eval_avg_mem_token_recall(Accuracy)": 0.24822695035460993,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 900,
      "eval_loss": 0.6382944583892822,
      "eval_num_samples": 30,
      "eval_runtime": 2.8103,
      "eval_samples_per_second": 9.252,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.423,
      "eval_total_correct_count": 70,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8628,
      "step": 900
    },
    {
      "epoch": 2.5316455696202533,
      "grad_norm": 2.0587706565856934,
      "learning_rate": 8.494757525546538e-07,
      "loss": 0.989,
      "step": 901
    },
    {
      "epoch": 2.5344585091420533,
      "grad_norm": 2.0397393703460693,
      "learning_rate": 8.410807603247656e-07,
      "loss": 0.9581,
      "step": 902
    },
    {
      "epoch": 2.5372714486638537,
      "grad_norm": 1.872904896736145,
      "learning_rate": 8.327236453451743e-07,
      "loss": 0.9432,
      "step": 903
    },
    {
      "epoch": 2.540084388185654,
      "grad_norm": 2.3130741119384766,
      "learning_rate": 8.244044837280901e-07,
      "loss": 1.2045,
      "step": 904
    },
    {
      "epoch": 2.542897327707454,
      "grad_norm": 2.1820616722106934,
      "learning_rate": 8.161233512400641e-07,
      "loss": 1.1755,
      "step": 905
    },
    {
      "epoch": 2.5457102672292544,
      "grad_norm": 1.8425172567367554,
      "learning_rate": 8.078803233012966e-07,
      "loss": 0.8806,
      "step": 906
    },
    {
      "epoch": 2.548523206751055,
      "grad_norm": 2.0481603145599365,
      "learning_rate": 7.996754749849567e-07,
      "loss": 1.0307,
      "step": 907
    },
    {
      "epoch": 2.551336146272855,
      "grad_norm": 1.9898444414138794,
      "learning_rate": 7.915088810164856e-07,
      "loss": 0.9326,
      "step": 908
    },
    {
      "epoch": 2.5541490857946556,
      "grad_norm": 2.014399766921997,
      "learning_rate": 7.833806157729329e-07,
      "loss": 1.0494,
      "step": 909
    },
    {
      "epoch": 2.5569620253164556,
      "grad_norm": 1.9588618278503418,
      "learning_rate": 7.752907532822613e-07,
      "loss": 1.0299,
      "step": 910
    },
    {
      "epoch": 2.559774964838256,
      "grad_norm": 2.05118465423584,
      "learning_rate": 7.672393672226902e-07,
      "loss": 1.2032,
      "step": 911
    },
    {
      "epoch": 2.5625879043600563,
      "grad_norm": 2.032313585281372,
      "learning_rate": 7.592265309220071e-07,
      "loss": 1.2313,
      "step": 912
    },
    {
      "epoch": 2.5654008438818563,
      "grad_norm": 2.2414844036102295,
      "learning_rate": 7.512523173569175e-07,
      "loss": 1.1436,
      "step": 913
    },
    {
      "epoch": 2.5682137834036567,
      "grad_norm": 2.186063289642334,
      "learning_rate": 7.433167991523632e-07,
      "loss": 1.1053,
      "step": 914
    },
    {
      "epoch": 2.571026722925457,
      "grad_norm": 2.098294734954834,
      "learning_rate": 7.354200485808749e-07,
      "loss": 1.1406,
      "step": 915
    },
    {
      "epoch": 2.5738396624472575,
      "grad_norm": 2.103463888168335,
      "learning_rate": 7.275621375619058e-07,
      "loss": 1.2908,
      "step": 916
    },
    {
      "epoch": 2.576652601969058,
      "grad_norm": 2.070359706878662,
      "learning_rate": 7.197431376611785e-07,
      "loss": 0.9896,
      "step": 917
    },
    {
      "epoch": 2.579465541490858,
      "grad_norm": 1.8880215883255005,
      "learning_rate": 7.11963120090034e-07,
      "loss": 0.9669,
      "step": 918
    },
    {
      "epoch": 2.5822784810126582,
      "grad_norm": 1.9502841234207153,
      "learning_rate": 7.042221557047823e-07,
      "loss": 0.9554,
      "step": 919
    },
    {
      "epoch": 2.5850914205344586,
      "grad_norm": 2.4192519187927246,
      "learning_rate": 6.96520315006059e-07,
      "loss": 1.4215,
      "step": 920
    },
    {
      "epoch": 2.5879043600562586,
      "grad_norm": 2.0227794647216797,
      "learning_rate": 6.888576681381798e-07,
      "loss": 1.0162,
      "step": 921
    },
    {
      "epoch": 2.590717299578059,
      "grad_norm": 2.049302101135254,
      "learning_rate": 6.81234284888505e-07,
      "loss": 1.1344,
      "step": 922
    },
    {
      "epoch": 2.5935302390998594,
      "grad_norm": 2.3195278644561768,
      "learning_rate": 6.736502346868018e-07,
      "loss": 1.1883,
      "step": 923
    },
    {
      "epoch": 2.5963431786216598,
      "grad_norm": 1.9605528116226196,
      "learning_rate": 6.661055866046134e-07,
      "loss": 0.9725,
      "step": 924
    },
    {
      "epoch": 2.59915611814346,
      "grad_norm": 2.021388530731201,
      "learning_rate": 6.586004093546277e-07,
      "loss": 1.1272,
      "step": 925
    },
    {
      "epoch": 2.60196905766526,
      "grad_norm": 1.7564787864685059,
      "learning_rate": 6.511347712900545e-07,
      "loss": 0.9292,
      "step": 926
    },
    {
      "epoch": 2.6047819971870605,
      "grad_norm": 1.886629581451416,
      "learning_rate": 6.437087404040016e-07,
      "loss": 1.027,
      "step": 927
    },
    {
      "epoch": 2.607594936708861,
      "grad_norm": 2.0022552013397217,
      "learning_rate": 6.363223843288535e-07,
      "loss": 1.0797,
      "step": 928
    },
    {
      "epoch": 2.610407876230661,
      "grad_norm": 2.084672451019287,
      "learning_rate": 6.289757703356597e-07,
      "loss": 1.164,
      "step": 929
    },
    {
      "epoch": 2.6132208157524612,
      "grad_norm": 2.0323879718780518,
      "learning_rate": 6.216689653335184e-07,
      "loss": 1.172,
      "step": 930
    },
    {
      "epoch": 2.6160337552742616,
      "grad_norm": 1.9796019792556763,
      "learning_rate": 6.144020358689679e-07,
      "loss": 1.1588,
      "step": 931
    },
    {
      "epoch": 2.618846694796062,
      "grad_norm": 2.1912734508514404,
      "learning_rate": 6.071750481253835e-07,
      "loss": 1.0916,
      "step": 932
    },
    {
      "epoch": 2.6216596343178624,
      "grad_norm": 2.242549419403076,
      "learning_rate": 5.999880679223702e-07,
      "loss": 1.1584,
      "step": 933
    },
    {
      "epoch": 2.6244725738396624,
      "grad_norm": 2.412274122238159,
      "learning_rate": 5.928411607151651e-07,
      "loss": 1.2867,
      "step": 934
    },
    {
      "epoch": 2.6272855133614628,
      "grad_norm": 2.416025161743164,
      "learning_rate": 5.857343915940434e-07,
      "loss": 1.2418,
      "step": 935
    },
    {
      "epoch": 2.630098452883263,
      "grad_norm": 2.027195453643799,
      "learning_rate": 5.786678252837213e-07,
      "loss": 1.1176,
      "step": 936
    },
    {
      "epoch": 2.632911392405063,
      "grad_norm": 1.915125846862793,
      "learning_rate": 5.71641526142771e-07,
      "loss": 1.0964,
      "step": 937
    },
    {
      "epoch": 2.6357243319268635,
      "grad_norm": 1.882155179977417,
      "learning_rate": 5.646555581630319e-07,
      "loss": 0.9061,
      "step": 938
    },
    {
      "epoch": 2.638537271448664,
      "grad_norm": 2.08971905708313,
      "learning_rate": 5.577099849690276e-07,
      "loss": 1.0459,
      "step": 939
    },
    {
      "epoch": 2.6413502109704643,
      "grad_norm": 2.2240920066833496,
      "learning_rate": 5.508048698173879e-07,
      "loss": 1.283,
      "step": 940
    },
    {
      "epoch": 2.6441631504922647,
      "grad_norm": 2.1256864070892334,
      "learning_rate": 5.439402755962719e-07,
      "loss": 0.9836,
      "step": 941
    },
    {
      "epoch": 2.6469760900140646,
      "grad_norm": 2.5735840797424316,
      "learning_rate": 5.371162648247957e-07,
      "loss": 1.3213,
      "step": 942
    },
    {
      "epoch": 2.649789029535865,
      "grad_norm": 2.2286038398742676,
      "learning_rate": 5.303328996524626e-07,
      "loss": 1.2165,
      "step": 943
    },
    {
      "epoch": 2.652601969057665,
      "grad_norm": 1.9804893732070923,
      "learning_rate": 5.235902418585958e-07,
      "loss": 1.0179,
      "step": 944
    },
    {
      "epoch": 2.6554149085794654,
      "grad_norm": 2.038052797317505,
      "learning_rate": 5.168883528517793e-07,
      "loss": 1.0582,
      "step": 945
    },
    {
      "epoch": 2.6582278481012658,
      "grad_norm": 2.0677716732025146,
      "learning_rate": 5.102272936692948e-07,
      "loss": 1.2318,
      "step": 946
    },
    {
      "epoch": 2.661040787623066,
      "grad_norm": 2.240928888320923,
      "learning_rate": 5.036071249765673e-07,
      "loss": 0.9381,
      "step": 947
    },
    {
      "epoch": 2.6638537271448666,
      "grad_norm": 2.2003684043884277,
      "learning_rate": 4.970279070666162e-07,
      "loss": 1.1822,
      "step": 948
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 2.238095998764038,
      "learning_rate": 4.904896998594955e-07,
      "loss": 1.2912,
      "step": 949
    },
    {
      "epoch": 2.669479606188467,
      "grad_norm": 2.166447639465332,
      "learning_rate": 4.839925629017638e-07,
      "loss": 1.1712,
      "step": 950
    },
    {
      "epoch": 2.669479606188467,
      "eval_loss": 0.6378054022789001,
      "eval_runtime": 2.8903,
      "eval_samples_per_second": 8.996,
      "eval_steps_per_second": 1.384,
      "step": 950
    },
    {
      "epoch": 2.669479606188467,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 600.375,
      "eval_avg_mem_token_accuracy": 0.2553191489361702,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.008346858335265477,
      "eval_avg_mem_token_rate": 0.5738042972127985,
      "eval_avg_mem_token_recall(Accuracy)": 0.2553191489361702,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 950,
      "eval_loss": 0.6378054022789001,
      "eval_num_samples": 30,
      "eval_runtime": 2.8903,
      "eval_samples_per_second": 8.996,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.384,
      "eval_total_correct_count": 72,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8626,
      "step": 950
    },
    {
      "epoch": 2.6722925457102673,
      "grad_norm": 2.2033162117004395,
      "learning_rate": 4.775365553659256e-07,
      "loss": 1.0523,
      "step": 951
    },
    {
      "epoch": 2.6751054852320673,
      "grad_norm": 2.277907133102417,
      "learning_rate": 4.711217360499082e-07,
      "loss": 1.0803,
      "step": 952
    },
    {
      "epoch": 2.6779184247538677,
      "grad_norm": 1.9675984382629395,
      "learning_rate": 4.6474816337650883e-07,
      "loss": 1.258,
      "step": 953
    },
    {
      "epoch": 2.680731364275668,
      "grad_norm": 2.1231744289398193,
      "learning_rate": 4.5841589539288187e-07,
      "loss": 1.0332,
      "step": 954
    },
    {
      "epoch": 2.6835443037974684,
      "grad_norm": 2.0946061611175537,
      "learning_rate": 4.5212498976999196e-07,
      "loss": 1.1456,
      "step": 955
    },
    {
      "epoch": 2.686357243319269,
      "grad_norm": 2.3890576362609863,
      "learning_rate": 4.458755038021029e-07,
      "loss": 1.2698,
      "step": 956
    },
    {
      "epoch": 2.689170182841069,
      "grad_norm": 1.8794134855270386,
      "learning_rate": 4.3966749440624736e-07,
      "loss": 0.9727,
      "step": 957
    },
    {
      "epoch": 2.691983122362869,
      "grad_norm": 2.3660783767700195,
      "learning_rate": 4.3350101812171143e-07,
      "loss": 1.1163,
      "step": 958
    },
    {
      "epoch": 2.6947960618846696,
      "grad_norm": 2.015714168548584,
      "learning_rate": 4.2737613110951924e-07,
      "loss": 1.1079,
      "step": 959
    },
    {
      "epoch": 2.6976090014064695,
      "grad_norm": 2.051121234893799,
      "learning_rate": 4.2129288915192355e-07,
      "loss": 1.1844,
      "step": 960
    },
    {
      "epoch": 2.70042194092827,
      "grad_norm": 2.295501708984375,
      "learning_rate": 4.152513476518927e-07,
      "loss": 1.2118,
      "step": 961
    },
    {
      "epoch": 2.7032348804500703,
      "grad_norm": 1.991119623184204,
      "learning_rate": 4.092515616326126e-07,
      "loss": 1.1834,
      "step": 962
    },
    {
      "epoch": 2.7060478199718707,
      "grad_norm": 1.856577754020691,
      "learning_rate": 4.0329358573697906e-07,
      "loss": 0.972,
      "step": 963
    },
    {
      "epoch": 2.708860759493671,
      "grad_norm": 2.042525291442871,
      "learning_rate": 3.973774742271047e-07,
      "loss": 1.1083,
      "step": 964
    },
    {
      "epoch": 2.711673699015471,
      "grad_norm": 1.8524376153945923,
      "learning_rate": 3.9150328098382593e-07,
      "loss": 0.9043,
      "step": 965
    },
    {
      "epoch": 2.7144866385372715,
      "grad_norm": 2.0273165702819824,
      "learning_rate": 3.8567105950620353e-07,
      "loss": 0.9573,
      "step": 966
    },
    {
      "epoch": 2.717299578059072,
      "grad_norm": 2.551295757293701,
      "learning_rate": 3.798808629110479e-07,
      "loss": 1.0811,
      "step": 967
    },
    {
      "epoch": 2.720112517580872,
      "grad_norm": 2.2737653255462646,
      "learning_rate": 3.7413274393242327e-07,
      "loss": 1.1984,
      "step": 968
    },
    {
      "epoch": 2.722925457102672,
      "grad_norm": 2.330913543701172,
      "learning_rate": 3.68426754921179e-07,
      "loss": 1.223,
      "step": 969
    },
    {
      "epoch": 2.7257383966244726,
      "grad_norm": 2.24187970161438,
      "learning_rate": 3.6276294784446e-07,
      "loss": 1.0989,
      "step": 970
    },
    {
      "epoch": 2.728551336146273,
      "grad_norm": 2.3575563430786133,
      "learning_rate": 3.5714137428524754e-07,
      "loss": 1.2727,
      "step": 971
    },
    {
      "epoch": 2.7313642756680734,
      "grad_norm": 2.3462178707122803,
      "learning_rate": 3.5156208544187554e-07,
      "loss": 1.2697,
      "step": 972
    },
    {
      "epoch": 2.7341772151898733,
      "grad_norm": 2.2106142044067383,
      "learning_rate": 3.460251321275759e-07,
      "loss": 0.9519,
      "step": 973
    },
    {
      "epoch": 2.7369901547116737,
      "grad_norm": 1.885840654373169,
      "learning_rate": 3.4053056477000856e-07,
      "loss": 0.8887,
      "step": 974
    },
    {
      "epoch": 2.739803094233474,
      "grad_norm": 1.8733952045440674,
      "learning_rate": 3.350784334108048e-07,
      "loss": 1.1189,
      "step": 975
    },
    {
      "epoch": 2.742616033755274,
      "grad_norm": 2.0802693367004395,
      "learning_rate": 3.2966878770511025e-07,
      "loss": 1.0736,
      "step": 976
    },
    {
      "epoch": 2.7454289732770745,
      "grad_norm": 2.003995656967163,
      "learning_rate": 3.24301676921136e-07,
      "loss": 0.9954,
      "step": 977
    },
    {
      "epoch": 2.748241912798875,
      "grad_norm": 1.968119740486145,
      "learning_rate": 3.189771499397043e-07,
      "loss": 1.0114,
      "step": 978
    },
    {
      "epoch": 2.7510548523206753,
      "grad_norm": 2.2957983016967773,
      "learning_rate": 3.136952552538092e-07,
      "loss": 1.1369,
      "step": 979
    },
    {
      "epoch": 2.7538677918424757,
      "grad_norm": 2.131643772125244,
      "learning_rate": 3.084560409681703e-07,
      "loss": 1.2212,
      "step": 980
    },
    {
      "epoch": 2.7566807313642756,
      "grad_norm": 1.8769854307174683,
      "learning_rate": 3.0325955479879765e-07,
      "loss": 0.94,
      "step": 981
    },
    {
      "epoch": 2.759493670886076,
      "grad_norm": 1.8766363859176636,
      "learning_rate": 2.981058440725559e-07,
      "loss": 0.9704,
      "step": 982
    },
    {
      "epoch": 2.7623066104078764,
      "grad_norm": 2.0633304119110107,
      "learning_rate": 2.929949557267331e-07,
      "loss": 0.9554,
      "step": 983
    },
    {
      "epoch": 2.7651195499296763,
      "grad_norm": 2.1459577083587646,
      "learning_rate": 2.8792693630861345e-07,
      "loss": 1.0209,
      "step": 984
    },
    {
      "epoch": 2.7679324894514767,
      "grad_norm": 2.0213375091552734,
      "learning_rate": 2.829018319750543e-07,
      "loss": 1.0121,
      "step": 985
    },
    {
      "epoch": 2.770745428973277,
      "grad_norm": 2.148283004760742,
      "learning_rate": 2.779196884920643e-07,
      "loss": 1.1324,
      "step": 986
    },
    {
      "epoch": 2.7735583684950775,
      "grad_norm": 2.2942779064178467,
      "learning_rate": 2.729805512343875e-07,
      "loss": 1.3349,
      "step": 987
    },
    {
      "epoch": 2.7763713080168775,
      "grad_norm": 1.860045075416565,
      "learning_rate": 2.6808446518508835e-07,
      "loss": 0.9753,
      "step": 988
    },
    {
      "epoch": 2.779184247538678,
      "grad_norm": 2.135307550430298,
      "learning_rate": 2.632314749351483e-07,
      "loss": 1.2426,
      "step": 989
    },
    {
      "epoch": 2.7819971870604783,
      "grad_norm": 2.502941131591797,
      "learning_rate": 2.5842162468304845e-07,
      "loss": 1.3143,
      "step": 990
    },
    {
      "epoch": 2.7848101265822782,
      "grad_norm": 1.8326023817062378,
      "learning_rate": 2.5365495823437834e-07,
      "loss": 1.0144,
      "step": 991
    },
    {
      "epoch": 2.7876230661040786,
      "grad_norm": 2.351020574569702,
      "learning_rate": 2.489315190014291e-07,
      "loss": 1.2042,
      "step": 992
    },
    {
      "epoch": 2.790436005625879,
      "grad_norm": 1.9044114351272583,
      "learning_rate": 2.4425135000280374e-07,
      "loss": 1.0554,
      "step": 993
    },
    {
      "epoch": 2.7932489451476794,
      "grad_norm": 2.1605467796325684,
      "learning_rate": 2.3961449386302017e-07,
      "loss": 1.1091,
      "step": 994
    },
    {
      "epoch": 2.79606188466948,
      "grad_norm": 1.9160940647125244,
      "learning_rate": 2.3502099281212775e-07,
      "loss": 0.9543,
      "step": 995
    },
    {
      "epoch": 2.7988748241912798,
      "grad_norm": 2.0379810333251953,
      "learning_rate": 2.3047088868531796e-07,
      "loss": 1.0654,
      "step": 996
    },
    {
      "epoch": 2.80168776371308,
      "grad_norm": 2.0998106002807617,
      "learning_rate": 2.2596422292254893e-07,
      "loss": 1.1908,
      "step": 997
    },
    {
      "epoch": 2.8045007032348805,
      "grad_norm": 2.1208677291870117,
      "learning_rate": 2.2150103656816357e-07,
      "loss": 1.0795,
      "step": 998
    },
    {
      "epoch": 2.8073136427566805,
      "grad_norm": 2.2069194316864014,
      "learning_rate": 2.1708137027051601e-07,
      "loss": 1.1354,
      "step": 999
    },
    {
      "epoch": 2.810126582278481,
      "grad_norm": 2.2347195148468018,
      "learning_rate": 2.1270526428160466e-07,
      "loss": 1.3928,
      "step": 1000
    },
    {
      "epoch": 2.810126582278481,
      "eval_loss": 0.63798987865448,
      "eval_runtime": 2.8525,
      "eval_samples_per_second": 9.115,
      "eval_steps_per_second": 1.402,
      "step": 1000
    },
    {
      "epoch": 2.810126582278481,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 599.75,
      "eval_avg_mem_token_accuracy": 0.24113475177304963,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.00790054606715464,
      "eval_avg_mem_token_rate": 0.5725404110955897,
      "eval_avg_mem_token_recall(Accuracy)": 0.24113475177304963,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 1000,
      "eval_loss": 0.63798987865448,
      "eval_num_samples": 30,
      "eval_runtime": 2.8525,
      "eval_samples_per_second": 9.115,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.402,
      "eval_total_correct_count": 68,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8607,
      "step": 1000
    },
    {
      "epoch": 2.8129395218002813,
      "grad_norm": 2.0307729244232178,
      "learning_rate": 2.0837275845670135e-07,
      "loss": 1.2427,
      "step": 1001
    },
    {
      "epoch": 2.8157524613220817,
      "grad_norm": 2.4855947494506836,
      "learning_rate": 2.0408389225399339e-07,
      "loss": 1.1572,
      "step": 1002
    },
    {
      "epoch": 2.818565400843882,
      "grad_norm": 2.137430429458618,
      "learning_rate": 1.9983870473421761e-07,
      "loss": 1.1247,
      "step": 1003
    },
    {
      "epoch": 2.821378340365682,
      "grad_norm": 1.7523655891418457,
      "learning_rate": 1.9563723456031303e-07,
      "loss": 1.1162,
      "step": 1004
    },
    {
      "epoch": 2.8241912798874824,
      "grad_norm": 2.1431448459625244,
      "learning_rate": 1.9147951999705928e-07,
      "loss": 1.2084,
      "step": 1005
    },
    {
      "epoch": 2.827004219409283,
      "grad_norm": 2.178713798522949,
      "learning_rate": 1.8736559891073703e-07,
      "loss": 1.2073,
      "step": 1006
    },
    {
      "epoch": 2.8298171589310828,
      "grad_norm": 2.0820088386535645,
      "learning_rate": 1.8329550876877488e-07,
      "loss": 1.1191,
      "step": 1007
    },
    {
      "epoch": 2.832630098452883,
      "grad_norm": 2.0419578552246094,
      "learning_rate": 1.7926928663941635e-07,
      "loss": 1.0641,
      "step": 1008
    },
    {
      "epoch": 2.8354430379746836,
      "grad_norm": 2.2004177570343018,
      "learning_rate": 1.7528696919137444e-07,
      "loss": 1.3558,
      "step": 1009
    },
    {
      "epoch": 2.838255977496484,
      "grad_norm": 2.3024518489837646,
      "learning_rate": 1.7134859269350546e-07,
      "loss": 1.2914,
      "step": 1010
    },
    {
      "epoch": 2.8410689170182843,
      "grad_norm": 2.0407681465148926,
      "learning_rate": 1.6745419301446962e-07,
      "loss": 1.0491,
      "step": 1011
    },
    {
      "epoch": 2.8438818565400843,
      "grad_norm": 2.028738498687744,
      "learning_rate": 1.6360380562241428e-07,
      "loss": 1.2034,
      "step": 1012
    },
    {
      "epoch": 2.8466947960618847,
      "grad_norm": 2.436655044555664,
      "learning_rate": 1.5979746558464237e-07,
      "loss": 1.4506,
      "step": 1013
    },
    {
      "epoch": 2.849507735583685,
      "grad_norm": 2.0717296600341797,
      "learning_rate": 1.5603520756729885e-07,
      "loss": 1.1103,
      "step": 1014
    },
    {
      "epoch": 2.852320675105485,
      "grad_norm": 2.195970058441162,
      "learning_rate": 1.5231706583505256e-07,
      "loss": 1.2775,
      "step": 1015
    },
    {
      "epoch": 2.8551336146272854,
      "grad_norm": 2.2911033630371094,
      "learning_rate": 1.486430742507833e-07,
      "loss": 1.1482,
      "step": 1016
    },
    {
      "epoch": 2.857946554149086,
      "grad_norm": 2.503101348876953,
      "learning_rate": 1.4501326627527513e-07,
      "loss": 1.4186,
      "step": 1017
    },
    {
      "epoch": 2.8607594936708862,
      "grad_norm": 1.9371217489242554,
      "learning_rate": 1.4142767496691135e-07,
      "loss": 0.9705,
      "step": 1018
    },
    {
      "epoch": 2.8635724331926866,
      "grad_norm": 2.0493252277374268,
      "learning_rate": 1.3788633298137288e-07,
      "loss": 0.9959,
      "step": 1019
    },
    {
      "epoch": 2.8663853727144866,
      "grad_norm": 1.987891674041748,
      "learning_rate": 1.3438927257134083e-07,
      "loss": 0.9549,
      "step": 1020
    },
    {
      "epoch": 2.869198312236287,
      "grad_norm": 2.177379608154297,
      "learning_rate": 1.3093652558620384e-07,
      "loss": 1.1057,
      "step": 1021
    },
    {
      "epoch": 2.8720112517580874,
      "grad_norm": 1.7878172397613525,
      "learning_rate": 1.2752812347176514e-07,
      "loss": 0.865,
      "step": 1022
    },
    {
      "epoch": 2.8748241912798873,
      "grad_norm": 2.258223295211792,
      "learning_rate": 1.2416409726996037e-07,
      "loss": 1.1227,
      "step": 1023
    },
    {
      "epoch": 2.8776371308016877,
      "grad_norm": 2.103666067123413,
      "learning_rate": 1.2084447761857244e-07,
      "loss": 1.1573,
      "step": 1024
    },
    {
      "epoch": 2.880450070323488,
      "grad_norm": 1.982913851737976,
      "learning_rate": 1.1756929475095103e-07,
      "loss": 1.0078,
      "step": 1025
    },
    {
      "epoch": 2.8832630098452885,
      "grad_norm": 1.9436091184616089,
      "learning_rate": 1.143385784957407e-07,
      "loss": 1.0486,
      "step": 1026
    },
    {
      "epoch": 2.8860759493670884,
      "grad_norm": 2.438931465148926,
      "learning_rate": 1.111523582766072e-07,
      "loss": 1.2295,
      "step": 1027
    },
    {
      "epoch": 2.888888888888889,
      "grad_norm": 1.8638874292373657,
      "learning_rate": 1.0801066311196872e-07,
      "loss": 1.06,
      "step": 1028
    },
    {
      "epoch": 2.8917018284106892,
      "grad_norm": 1.9490095376968384,
      "learning_rate": 1.0491352161473345e-07,
      "loss": 1.0883,
      "step": 1029
    },
    {
      "epoch": 2.894514767932489,
      "grad_norm": 2.201900005340576,
      "learning_rate": 1.018609619920391e-07,
      "loss": 0.9764,
      "step": 1030
    },
    {
      "epoch": 2.8973277074542896,
      "grad_norm": 2.4178552627563477,
      "learning_rate": 9.885301204499321e-08,
      "loss": 1.2852,
      "step": 1031
    },
    {
      "epoch": 2.90014064697609,
      "grad_norm": 2.231503486633301,
      "learning_rate": 9.588969916842272e-08,
      "loss": 1.1528,
      "step": 1032
    },
    {
      "epoch": 2.9029535864978904,
      "grad_norm": 1.870887041091919,
      "learning_rate": 9.297105035062426e-08,
      "loss": 1.0726,
      "step": 1033
    },
    {
      "epoch": 2.9057665260196908,
      "grad_norm": 2.3219852447509766,
      "learning_rate": 9.009709217311702e-08,
      "loss": 1.1784,
      "step": 1034
    },
    {
      "epoch": 2.9085794655414907,
      "grad_norm": 2.1292107105255127,
      "learning_rate": 8.72678508104008e-08,
      "loss": 1.2251,
      "step": 1035
    },
    {
      "epoch": 2.911392405063291,
      "grad_norm": 2.016449451446533,
      "learning_rate": 8.448335202971891e-08,
      "loss": 0.9478,
      "step": 1036
    },
    {
      "epoch": 2.9142053445850915,
      "grad_norm": 2.08313250541687,
      "learning_rate": 8.174362119082291e-08,
      "loss": 1.0649,
      "step": 1037
    },
    {
      "epoch": 2.9170182841068915,
      "grad_norm": 2.0640265941619873,
      "learning_rate": 7.9048683245741e-08,
      "loss": 1.1765,
      "step": 1038
    },
    {
      "epoch": 2.919831223628692,
      "grad_norm": 2.1048390865325928,
      "learning_rate": 7.639856273855106e-08,
      "loss": 1.0642,
      "step": 1039
    },
    {
      "epoch": 2.9226441631504922,
      "grad_norm": 2.1916463375091553,
      "learning_rate": 7.379328380515805e-08,
      "loss": 1.2419,
      "step": 1040
    },
    {
      "epoch": 2.9254571026722926,
      "grad_norm": 2.252420425415039,
      "learning_rate": 7.123287017307302e-08,
      "loss": 1.3343,
      "step": 1041
    },
    {
      "epoch": 2.928270042194093,
      "grad_norm": 2.1169185638427734,
      "learning_rate": 6.871734516119721e-08,
      "loss": 1.129,
      "step": 1042
    },
    {
      "epoch": 2.931082981715893,
      "grad_norm": 2.2315621376037598,
      "learning_rate": 6.624673167961004e-08,
      "loss": 1.1125,
      "step": 1043
    },
    {
      "epoch": 2.9338959212376934,
      "grad_norm": 1.8748716115951538,
      "learning_rate": 6.382105222936085e-08,
      "loss": 1.049,
      "step": 1044
    },
    {
      "epoch": 2.9367088607594938,
      "grad_norm": 1.9676600694656372,
      "learning_rate": 6.144032890226304e-08,
      "loss": 1.1791,
      "step": 1045
    },
    {
      "epoch": 2.9395218002812937,
      "grad_norm": 1.765437126159668,
      "learning_rate": 5.910458338069192e-08,
      "loss": 0.9795,
      "step": 1046
    },
    {
      "epoch": 2.942334739803094,
      "grad_norm": 2.3168399333953857,
      "learning_rate": 5.6813836937392175e-08,
      "loss": 1.1186,
      "step": 1047
    },
    {
      "epoch": 2.9451476793248945,
      "grad_norm": 2.183238983154297,
      "learning_rate": 5.456811043527632e-08,
      "loss": 1.1833,
      "step": 1048
    },
    {
      "epoch": 2.947960618846695,
      "grad_norm": 1.8787195682525635,
      "learning_rate": 5.236742432724262e-08,
      "loss": 0.9953,
      "step": 1049
    },
    {
      "epoch": 2.9507735583684953,
      "grad_norm": 2.0316836833953857,
      "learning_rate": 5.021179865598136e-08,
      "loss": 1.0088,
      "step": 1050
    },
    {
      "epoch": 2.9507735583684953,
      "eval_loss": 0.6373986005783081,
      "eval_runtime": 2.8523,
      "eval_samples_per_second": 9.115,
      "eval_steps_per_second": 1.402,
      "step": 1050
    },
    {
      "epoch": 2.9507735583684953,
      "eval_active_sample_count": 30,
      "eval_avg_loss": 599.625,
      "eval_avg_mem_token_accuracy": 0.2553191489361702,
      "eval_avg_mem_token_gt_count": 9.4,
      "eval_avg_mem_token_precision": 0.008363340689975607,
      "eval_avg_mem_token_rate": 0.5726734517395065,
      "eval_avg_mem_token_recall(Accuracy)": 0.2553191489361702,
      "eval_avg_slot_norm_mean": 197.63333333333333,
      "eval_avg_slot_sim_mean": 0.996875,
      "eval_global_step": 1050,
      "eval_loss": 0.6373986005783081,
      "eval_num_samples": 30,
      "eval_runtime": 2.8523,
      "eval_samples_per_second": 9.115,
      "eval_sim_active_sample_count": 30,
      "eval_steps_per_second": 1.402,
      "eval_total_correct_count": 72,
      "eval_total_gt_mem_token_count": 282,
      "eval_total_positions": 15033,
      "eval_total_pred_mem_token_count": 8609,
      "step": 1050
    },
    {
      "epoch": 2.9535864978902953,
      "grad_norm": 2.193411111831665,
      "learning_rate": 4.810125305379998e-08,
      "loss": 1.086,
      "step": 1051
    },
    {
      "epoch": 2.9563994374120957,
      "grad_norm": 1.7261470556259155,
      "learning_rate": 4.6035806742436575e-08,
      "loss": 1.004,
      "step": 1052
    },
    {
      "epoch": 2.959212376933896,
      "grad_norm": 1.943182110786438,
      "learning_rate": 4.4015478532891675e-08,
      "loss": 1.1523,
      "step": 1053
    },
    {
      "epoch": 2.962025316455696,
      "grad_norm": 2.992014169692993,
      "learning_rate": 4.20402868252523e-08,
      "loss": 1.1195,
      "step": 1054
    },
    {
      "epoch": 2.9648382559774964,
      "grad_norm": 2.0633037090301514,
      "learning_rate": 4.01102496085265e-08,
      "loss": 1.1554,
      "step": 1055
    },
    {
      "epoch": 2.967651195499297,
      "grad_norm": 5.867424964904785,
      "learning_rate": 3.822538446047852e-08,
      "loss": 1.1499,
      "step": 1056
    },
    {
      "epoch": 2.970464135021097,
      "grad_norm": 2.3555386066436768,
      "learning_rate": 3.6385708547468925e-08,
      "loss": 1.296,
      "step": 1057
    },
    {
      "epoch": 2.9732770745428976,
      "grad_norm": 2.298612594604492,
      "learning_rate": 3.4591238624299696e-08,
      "loss": 1.1622,
      "step": 1058
    },
    {
      "epoch": 2.9760900140646975,
      "grad_norm": 2.095074415206909,
      "learning_rate": 3.284199103405883e-08,
      "loss": 1.0392,
      "step": 1059
    },
    {
      "epoch": 2.978902953586498,
      "grad_norm": 1.7967655658721924,
      "learning_rate": 3.113798170797489e-08,
      "loss": 0.8557,
      "step": 1060
    },
    {
      "epoch": 2.9817158931082983,
      "grad_norm": 2.187788963317871,
      "learning_rate": 2.9479226165268216e-08,
      "loss": 1.2315,
      "step": 1061
    },
    {
      "epoch": 2.9845288326300983,
      "grad_norm": 2.0555531978607178,
      "learning_rate": 2.7865739513012746e-08,
      "loss": 1.0719,
      "step": 1062
    },
    {
      "epoch": 2.9873417721518987,
      "grad_norm": 2.1727023124694824,
      "learning_rate": 2.629753644599664e-08,
      "loss": 1.0655,
      "step": 1063
    },
    {
      "epoch": 2.990154711673699,
      "grad_norm": 2.1658568382263184,
      "learning_rate": 2.4774631246589075e-08,
      "loss": 1.0773,
      "step": 1064
    },
    {
      "epoch": 2.9929676511954995,
      "grad_norm": 2.12109112739563,
      "learning_rate": 2.3297037784609787e-08,
      "loss": 1.1639,
      "step": 1065
    },
    {
      "epoch": 2.9957805907173,
      "grad_norm": 2.118447780609131,
      "learning_rate": 2.1864769517204177e-08,
      "loss": 1.1426,
      "step": 1066
    },
    {
      "epoch": 2.9985935302391,
      "grad_norm": 1.9243059158325195,
      "learning_rate": 2.0477839488718398e-08,
      "loss": 0.9786,
      "step": 1067
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.6388542652130127,
      "learning_rate": 1.913626033058169e-08,
      "loss": 0.5664,
      "step": 1068
    },
    {
      "epoch": 3.0028129395218004,
      "grad_norm": 1.8314422369003296,
      "learning_rate": 1.784004426119257e-08,
      "loss": 1.0312,
      "step": 1069
    },
    {
      "epoch": 3.0056258790436003,
      "grad_norm": 2.122387170791626,
      "learning_rate": 1.6589203085804473e-08,
      "loss": 1.0936,
      "step": 1070
    },
    {
      "epoch": 3.0084388185654007,
      "grad_norm": 2.0820372104644775,
      "learning_rate": 1.538374819642252e-08,
      "loss": 1.0541,
      "step": 1071
    },
    {
      "epoch": 3.011251758087201,
      "grad_norm": 1.9248408079147339,
      "learning_rate": 1.4223690571695815e-08,
      "loss": 0.9005,
      "step": 1072
    },
    {
      "epoch": 3.0140646976090015,
      "grad_norm": 1.9669166803359985,
      "learning_rate": 1.3109040776819181e-08,
      "loss": 1.1376,
      "step": 1073
    },
    {
      "epoch": 3.0168776371308015,
      "grad_norm": 1.9701210260391235,
      "learning_rate": 1.2039808963437705e-08,
      "loss": 1.0197,
      "step": 1074
    },
    {
      "epoch": 3.019690576652602,
      "grad_norm": 2.451758623123169,
      "learning_rate": 1.1016004869551788e-08,
      "loss": 1.2066,
      "step": 1075
    },
    {
      "epoch": 3.0225035161744023,
      "grad_norm": 1.9009047746658325,
      "learning_rate": 1.0037637819431123e-08,
      "loss": 1.0529,
      "step": 1076
    },
    {
      "epoch": 3.0253164556962027,
      "grad_norm": 2.054837465286255,
      "learning_rate": 9.10471672352864e-09,
      "loss": 1.1907,
      "step": 1077
    },
    {
      "epoch": 3.0281293952180026,
      "grad_norm": 2.181744337081909,
      "learning_rate": 8.217250078400018e-09,
      "loss": 1.1479,
      "step": 1078
    },
    {
      "epoch": 3.030942334739803,
      "grad_norm": 2.066051721572876,
      "learning_rate": 7.375245966623757e-09,
      "loss": 1.2419,
      "step": 1079
    },
    {
      "epoch": 3.0337552742616034,
      "grad_norm": 2.2346465587615967,
      "learning_rate": 6.5787120567317734e-09,
      "loss": 0.9984,
      "step": 1080
    },
    {
      "epoch": 3.036568213783404,
      "grad_norm": 1.9933655261993408,
      "learning_rate": 5.827655603135585e-09,
      "loss": 1.0698,
      "step": 1081
    },
    {
      "epoch": 3.0393811533052038,
      "grad_norm": 2.1959750652313232,
      "learning_rate": 5.122083446062464e-09,
      "loss": 1.1049,
      "step": 1082
    },
    {
      "epoch": 3.042194092827004,
      "grad_norm": 2.2590200901031494,
      "learning_rate": 4.462002011493271e-09,
      "loss": 1.1198,
      "step": 1083
    },
    {
      "epoch": 3.0450070323488045,
      "grad_norm": 2.1988589763641357,
      "learning_rate": 3.847417311102497e-09,
      "loss": 1.1142,
      "step": 1084
    },
    {
      "epoch": 3.047819971870605,
      "grad_norm": 2.254117727279663,
      "learning_rate": 3.2783349422044197e-09,
      "loss": 1.199,
      "step": 1085
    },
    {
      "epoch": 3.050632911392405,
      "grad_norm": 1.9562636613845825,
      "learning_rate": 2.7547600877020355e-09,
      "loss": 1.0887,
      "step": 1086
    },
    {
      "epoch": 3.0534458509142053,
      "grad_norm": 1.9559649229049683,
      "learning_rate": 2.276697516039872e-09,
      "loss": 1.0819,
      "step": 1087
    },
    {
      "epoch": 3.0562587904360057,
      "grad_norm": 2.017869472503662,
      "learning_rate": 1.8441515811612465e-09,
      "loss": 0.9884,
      "step": 1088
    },
    {
      "epoch": 3.059071729957806,
      "grad_norm": 1.8643865585327148,
      "learning_rate": 1.4571262224666315e-09,
      "loss": 0.9771,
      "step": 1089
    },
    {
      "epoch": 3.061884669479606,
      "grad_norm": 2.1424920558929443,
      "learning_rate": 1.1156249647797934e-09,
      "loss": 1.2107,
      "step": 1090
    },
    {
      "epoch": 3.0646976090014064,
      "grad_norm": 2.071485757827759,
      "learning_rate": 8.196509183139301e-10,
      "loss": 0.8257,
      "step": 1091
    },
    {
      "epoch": 3.067510548523207,
      "grad_norm": 1.8392572402954102,
      "learning_rate": 5.692067786455813e-10,
      "loss": 1.119,
      "step": 1092
    },
    {
      "epoch": 3.070323488045007,
      "grad_norm": 2.0427193641662598,
      "learning_rate": 3.6429482668853824e-10,
      "loss": 1.0698,
      "step": 1093
    },
    {
      "epoch": 3.073136427566807,
      "grad_norm": 2.2885656356811523,
      "learning_rate": 2.0491692867330438e-10,
      "loss": 1.4175,
      "step": 1094
    },
    {
      "epoch": 3.0759493670886076,
      "grad_norm": 2.181267499923706,
      "learning_rate": 9.107453612933192e-11,
      "loss": 1.0596,
      "step": 1095
    },
    {
      "epoch": 3.078762306610408,
      "grad_norm": 2.340491533279419,
      "learning_rate": 2.2768685873364448e-11,
      "loss": 1.1616,
      "step": 1096
    }
  ],
  "logging_steps": 1,
  "max_steps": 1096,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 2000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}