{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.6039927404718695,
  "eval_steps": 500,
  "global_step": 400,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01161524500907441,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 4.6825,
      "step": 1,
      "ts_encoder_learning_rate": 0.0
    },
    {
      "epoch": 0.02323049001814882,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 4.6428,
      "step": 2,
      "ts_encoder_learning_rate": 0.0
    },
    {
      "epoch": 0.03484573502722323,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 4.6696,
      "step": 3,
      "ts_encoder_learning_rate": 0.0
    },
    {
      "epoch": 0.04646098003629764,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 4.6588,
      "step": 4,
      "ts_encoder_learning_rate": 0.0
    },
    {
      "epoch": 0.05807622504537205,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 4.7245,
      "step": 5,
      "ts_encoder_learning_rate": 0.0
    },
    {
      "epoch": 0.06969147005444647,
      "grad_norm": 152.50412651338738,
      "learning_rate": 0.0,
      "loss": 4.6365,
      "step": 6,
      "ts_encoder_learning_rate": 1.25e-06
    },
    {
      "epoch": 0.08130671506352087,
      "grad_norm": 153.96358887797103,
      "learning_rate": 1.25e-06,
      "loss": 4.6399,
      "step": 7,
      "ts_encoder_learning_rate": 2.5e-06
    },
    {
      "epoch": 0.09292196007259527,
      "grad_norm": 119.30991989360129,
      "learning_rate": 2.5e-06,
      "loss": 4.0109,
      "step": 8,
      "ts_encoder_learning_rate": 3.7500000000000005e-06
    },
    {
      "epoch": 0.10453720508166969,
      "grad_norm": 62.980179337580374,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 2.8417,
      "step": 9,
      "ts_encoder_learning_rate": 5e-06
    },
    {
      "epoch": 0.1161524500907441,
      "grad_norm": 33.513562064012554,
      "learning_rate": 5e-06,
      "loss": 2.1341,
      "step": 10,
      "ts_encoder_learning_rate": 6.25e-06
    },
    {
      "epoch": 0.1277676950998185,
      "grad_norm": 14.313077235644876,
      "learning_rate": 6.25e-06,
      "loss": 1.7057,
      "step": 11,
      "ts_encoder_learning_rate": 7.500000000000001e-06
    },
    {
      "epoch": 0.13938294010889293,
      "grad_norm": 6.369652791543636,
      "learning_rate": 7.500000000000001e-06,
      "loss": 1.3565,
      "step": 12,
      "ts_encoder_learning_rate": 8.750000000000001e-06
    },
    {
      "epoch": 0.15099818511796734,
      "grad_norm": 3.731701365388006,
      "learning_rate": 8.750000000000001e-06,
      "loss": 1.1662,
      "step": 13,
      "ts_encoder_learning_rate": 1e-05
    },
    {
      "epoch": 0.16261343012704174,
      "grad_norm": 2.6361585613163587,
      "learning_rate": 1e-05,
      "loss": 1.065,
      "step": 14,
      "ts_encoder_learning_rate": 9.999839429671632e-06
    },
    {
      "epoch": 0.17422867513611615,
      "grad_norm": 1.7275515554655163,
      "learning_rate": 9.999839429671632e-06,
      "loss": 1.0108,
      "step": 15,
      "ts_encoder_learning_rate": 9.999357728999657e-06
    },
    {
      "epoch": 0.18584392014519055,
      "grad_norm": 1.3395365357042155,
      "learning_rate": 9.999357728999657e-06,
      "loss": 0.9446,
      "step": 16,
      "ts_encoder_learning_rate": 9.99855492892281e-06
    },
    {
      "epoch": 0.19745916515426498,
      "grad_norm": 1.2724446763819477,
      "learning_rate": 9.99855492892281e-06,
      "loss": 0.8875,
      "step": 17,
      "ts_encoder_learning_rate": 9.99743108100344e-06
    },
    {
      "epoch": 0.20907441016333939,
      "grad_norm": 1.1656594933692108,
      "learning_rate": 9.99743108100344e-06,
      "loss": 0.8609,
      "step": 18,
      "ts_encoder_learning_rate": 9.9959862574242e-06
    },
    {
      "epoch": 0.2206896551724138,
      "grad_norm": 0.8157300015925317,
      "learning_rate": 9.9959862574242e-06,
      "loss": 0.8392,
      "step": 19,
      "ts_encoder_learning_rate": 9.994220550983404e-06
    },
    {
      "epoch": 0.2323049001814882,
      "grad_norm": 0.8647381094727201,
      "learning_rate": 9.994220550983404e-06,
      "loss": 0.8233,
      "step": 20,
      "ts_encoder_learning_rate": 9.992134075089085e-06
    },
    {
      "epoch": 0.24392014519056263,
      "grad_norm": 0.7179729634940382,
      "learning_rate": 9.992134075089085e-06,
      "loss": 0.7767,
      "step": 21,
      "ts_encoder_learning_rate": 9.989726963751683e-06
    },
    {
      "epoch": 0.255535390199637,
      "grad_norm": 0.5610758217332802,
      "learning_rate": 9.989726963751683e-06,
      "loss": 0.7525,
      "step": 22,
      "ts_encoder_learning_rate": 9.986999371575465e-06
    },
    {
      "epoch": 0.2671506352087114,
      "grad_norm": 0.6140193378709962,
      "learning_rate": 9.986999371575465e-06,
      "loss": 0.7503,
      "step": 23,
      "ts_encoder_learning_rate": 9.983951473748579e-06
    },
    {
      "epoch": 0.27876588021778587,
      "grad_norm": 0.5463424314841056,
      "learning_rate": 9.983951473748579e-06,
      "loss": 0.7361,
      "step": 24,
      "ts_encoder_learning_rate": 9.980583466031808e-06
    },
    {
      "epoch": 0.29038112522686027,
      "grad_norm": 0.5456053434098116,
      "learning_rate": 9.980583466031808e-06,
      "loss": 0.7445,
      "step": 25,
      "ts_encoder_learning_rate": 9.976895564745993e-06
    },
    {
      "epoch": 0.3019963702359347,
      "grad_norm": 0.4724488207315688,
      "learning_rate": 9.976895564745993e-06,
      "loss": 0.7258,
      "step": 26,
      "ts_encoder_learning_rate": 9.97288800675814e-06
    },
    {
      "epoch": 0.3136116152450091,
      "grad_norm": 0.43473472160091314,
      "learning_rate": 9.97288800675814e-06,
      "loss": 0.7131,
      "step": 27,
      "ts_encoder_learning_rate": 9.968561049466214e-06
    },
    {
      "epoch": 0.3252268602540835,
      "grad_norm": 0.4651449922676477,
      "learning_rate": 9.968561049466214e-06,
      "loss": 0.7125,
      "step": 28,
      "ts_encoder_learning_rate": 9.963914970782594e-06
    },
    {
      "epoch": 0.3368421052631579,
      "grad_norm": 0.42304487514126465,
      "learning_rate": 9.963914970782594e-06,
      "loss": 0.6958,
      "step": 29,
      "ts_encoder_learning_rate": 9.95895006911623e-06
    },
    {
      "epoch": 0.3484573502722323,
      "grad_norm": 0.37512478085470513,
      "learning_rate": 9.95895006911623e-06,
      "loss": 0.6815,
      "step": 30,
      "ts_encoder_learning_rate": 9.953666663353485e-06
    },
    {
      "epoch": 0.3600725952813067,
      "grad_norm": 0.38681860428776565,
      "learning_rate": 9.953666663353485e-06,
      "loss": 0.682,
      "step": 31,
      "ts_encoder_learning_rate": 9.948065092837631e-06
    },
    {
      "epoch": 0.3716878402903811,
      "grad_norm": 0.3878313981786008,
      "learning_rate": 9.948065092837631e-06,
      "loss": 0.6705,
      "step": 32,
      "ts_encoder_learning_rate": 9.942145717347077e-06
    },
    {
      "epoch": 0.38330308529945556,
      "grad_norm": 0.3483493230771332,
      "learning_rate": 9.942145717347077e-06,
      "loss": 0.6517,
      "step": 33,
      "ts_encoder_learning_rate": 9.935908917072253e-06
    },
    {
      "epoch": 0.39491833030852996,
      "grad_norm": 0.32925851151692315,
      "learning_rate": 9.935908917072253e-06,
      "loss": 0.6611,
      "step": 34,
      "ts_encoder_learning_rate": 9.92935509259118e-06
    },
    {
      "epoch": 0.40653357531760437,
      "grad_norm": 0.3655692991223213,
      "learning_rate": 9.92935509259118e-06,
      "loss": 0.6449,
      "step": 35,
      "ts_encoder_learning_rate": 9.922484664843763e-06
    },
    {
      "epoch": 0.41814882032667877,
      "grad_norm": 0.3582656975961708,
      "learning_rate": 9.922484664843763e-06,
      "loss": 0.6522,
      "step": 36,
      "ts_encoder_learning_rate": 9.915298075104735e-06
    },
    {
      "epoch": 0.4297640653357532,
      "grad_norm": 0.33379075182945417,
      "learning_rate": 9.915298075104735e-06,
      "loss": 0.6416,
      "step": 37,
      "ts_encoder_learning_rate": 9.907795784955327e-06
    },
    {
      "epoch": 0.4413793103448276,
      "grad_norm": 0.3347132110396014,
      "learning_rate": 9.907795784955327e-06,
      "loss": 0.6539,
      "step": 38,
      "ts_encoder_learning_rate": 9.899978276253617e-06
    },
    {
      "epoch": 0.452994555353902,
      "grad_norm": 0.3241158793623529,
      "learning_rate": 9.899978276253617e-06,
      "loss": 0.6438,
      "step": 39,
      "ts_encoder_learning_rate": 9.891846051103578e-06
    },
    {
      "epoch": 0.4646098003629764,
      "grad_norm": 0.3455452567899899,
      "learning_rate": 9.891846051103578e-06,
      "loss": 0.6316,
      "step": 40,
      "ts_encoder_learning_rate": 9.883399631822836e-06
    },
    {
      "epoch": 0.4762250453720508,
      "grad_norm": 0.31313557573101863,
      "learning_rate": 9.883399631822836e-06,
      "loss": 0.6389,
      "step": 41,
      "ts_encoder_learning_rate": 9.874639560909118e-06
    },
    {
      "epoch": 0.48784029038112525,
      "grad_norm": 0.3280416621294979,
      "learning_rate": 9.874639560909118e-06,
      "loss": 0.6285,
      "step": 42,
      "ts_encoder_learning_rate": 9.86556640100541e-06
    },
    {
      "epoch": 0.49945553539019966,
      "grad_norm": 0.3198451666750831,
      "learning_rate": 9.86556640100541e-06,
      "loss": 0.6356,
      "step": 43,
      "ts_encoder_learning_rate": 9.85618073486382e-06
    },
    {
      "epoch": 0.511070780399274,
      "grad_norm": 0.32065369243985437,
      "learning_rate": 9.85618073486382e-06,
      "loss": 0.6301,
      "step": 44,
      "ts_encoder_learning_rate": 9.846483165308142e-06
    },
    {
      "epoch": 0.5226860254083484,
      "grad_norm": 0.2985686533559952,
      "learning_rate": 9.846483165308142e-06,
      "loss": 0.6094,
      "step": 45,
      "ts_encoder_learning_rate": 9.836474315195148e-06
    },
    {
      "epoch": 0.5343012704174228,
      "grad_norm": 0.3043913719441071,
      "learning_rate": 9.836474315195148e-06,
      "loss": 0.618,
      "step": 46,
      "ts_encoder_learning_rate": 9.826154827374578e-06
    },
    {
      "epoch": 0.5459165154264973,
      "grad_norm": 0.29426029916433744,
      "learning_rate": 9.826154827374578e-06,
      "loss": 0.6117,
      "step": 47,
      "ts_encoder_learning_rate": 9.815525364647853e-06
    },
    {
      "epoch": 0.5575317604355717,
      "grad_norm": 0.29759373582076726,
      "learning_rate": 9.815525364647853e-06,
      "loss": 0.6102,
      "step": 48,
      "ts_encoder_learning_rate": 9.804586609725499e-06
    },
    {
      "epoch": 0.5691470054446461,
      "grad_norm": 0.2991170372194726,
      "learning_rate": 9.804586609725499e-06,
      "loss": 0.5973,
      "step": 49,
      "ts_encoder_learning_rate": 9.793339265183303e-06
    },
    {
      "epoch": 0.5807622504537205,
      "grad_norm": 0.297629927322108,
      "learning_rate": 9.793339265183303e-06,
      "loss": 0.5997,
      "step": 50,
      "ts_encoder_learning_rate": 9.781784053417192e-06
    },
    {
      "epoch": 0.592377495462795,
      "grad_norm": 0.29559157031475897,
      "learning_rate": 9.781784053417192e-06,
      "loss": 0.6012,
      "step": 51,
      "ts_encoder_learning_rate": 9.76992171659682e-06
    },
    {
      "epoch": 0.6039927404718693,
      "grad_norm": 0.30135176793549534,
      "learning_rate": 9.76992171659682e-06,
      "loss": 0.5997,
      "step": 52,
      "ts_encoder_learning_rate": 9.757753016617917e-06
    },
    {
      "epoch": 0.6156079854809438,
      "grad_norm": 0.2830877744764034,
      "learning_rate": 9.757753016617917e-06,
      "loss": 0.593,
      "step": 53,
      "ts_encoder_learning_rate": 9.745278735053345e-06
    },
    {
      "epoch": 0.6272232304900182,
      "grad_norm": 0.30643259357036984,
      "learning_rate": 9.745278735053345e-06,
      "loss": 0.5861,
      "step": 54,
      "ts_encoder_learning_rate": 9.732499673102895e-06
    },
    {
      "epoch": 0.6388384754990926,
      "grad_norm": 0.33677739208267987,
      "learning_rate": 9.732499673102895e-06,
      "loss": 0.579,
      "step": 55,
      "ts_encoder_learning_rate": 9.719416651541839e-06
    },
    {
      "epoch": 0.650453720508167,
      "grad_norm": 0.3205752816564006,
      "learning_rate": 9.719416651541839e-06,
      "loss": 0.589,
      "step": 56,
      "ts_encoder_learning_rate": 9.706030510668202e-06
    },
    {
      "epoch": 0.6620689655172414,
      "grad_norm": 0.3136856624465887,
      "learning_rate": 9.706030510668202e-06,
      "loss": 0.5719,
      "step": 57,
      "ts_encoder_learning_rate": 9.692342110248802e-06
    },
    {
      "epoch": 0.6736842105263158,
      "grad_norm": 0.3538385796052594,
      "learning_rate": 9.692342110248802e-06,
      "loss": 0.5836,
      "step": 58,
      "ts_encoder_learning_rate": 9.678352329464018e-06
    },
    {
      "epoch": 0.6852994555353902,
      "grad_norm": 0.3412039613534201,
      "learning_rate": 9.678352329464018e-06,
      "loss": 0.5776,
      "step": 59,
      "ts_encoder_learning_rate": 9.664062066851325e-06
    },
    {
      "epoch": 0.6969147005444646,
      "grad_norm": 0.3470773794842348,
      "learning_rate": 9.664062066851325e-06,
      "loss": 0.5851,
      "step": 60,
      "ts_encoder_learning_rate": 9.649472240247588e-06
    },
    {
      "epoch": 0.708529945553539,
      "grad_norm": 0.3212528977463762,
      "learning_rate": 9.649472240247588e-06,
      "loss": 0.5739,
      "step": 61,
      "ts_encoder_learning_rate": 9.63458378673011e-06
    },
    {
      "epoch": 0.7201451905626134,
      "grad_norm": 0.3628948373052999,
      "learning_rate": 9.63458378673011e-06,
      "loss": 0.5667,
      "step": 62,
      "ts_encoder_learning_rate": 9.619397662556434e-06
    },
    {
      "epoch": 0.7317604355716878,
      "grad_norm": 0.35120878235548797,
      "learning_rate": 9.619397662556434e-06,
      "loss": 0.5746,
      "step": 63,
      "ts_encoder_learning_rate": 9.603914843102941e-06
    },
    {
      "epoch": 0.7433756805807622,
      "grad_norm": 0.34896054004358656,
      "learning_rate": 9.603914843102941e-06,
      "loss": 0.5683,
      "step": 64,
      "ts_encoder_learning_rate": 9.588136322802194e-06
    },
    {
      "epoch": 0.7549909255898367,
      "grad_norm": 0.34262893904308916,
      "learning_rate": 9.588136322802194e-06,
      "loss": 0.5576,
      "step": 65,
      "ts_encoder_learning_rate": 9.572063115079063e-06
    },
    {
      "epoch": 0.7666061705989111,
      "grad_norm": 0.3380023238243971,
      "learning_rate": 9.572063115079063e-06,
      "loss": 0.553,
      "step": 66,
      "ts_encoder_learning_rate": 9.555696252285648e-06
    },
    {
      "epoch": 0.7782214156079855,
      "grad_norm": 0.3875484812249266,
      "learning_rate": 9.555696252285648e-06,
      "loss": 0.5596,
      "step": 67,
      "ts_encoder_learning_rate": 9.539036785634961e-06
    },
    {
      "epoch": 0.7898366606170599,
      "grad_norm": 0.35930423509307985,
      "learning_rate": 9.539036785634961e-06,
      "loss": 0.5545,
      "step": 68,
      "ts_encoder_learning_rate": 9.522085785133415e-06
    },
    {
      "epoch": 0.8014519056261343,
      "grad_norm": 0.3791388166119568,
      "learning_rate": 9.522085785133415e-06,
      "loss": 0.5513,
      "step": 69,
      "ts_encoder_learning_rate": 9.504844339512096e-06
    },
    {
      "epoch": 0.8130671506352087,
      "grad_norm": 0.34685014988411594,
      "learning_rate": 9.504844339512096e-06,
      "loss": 0.5516,
      "step": 70,
      "ts_encoder_learning_rate": 9.48731355615684e-06
    },
    {
      "epoch": 0.8246823956442831,
      "grad_norm": 0.35909523874401894,
      "learning_rate": 9.48731355615684e-06,
      "loss": 0.5425,
      "step": 71,
      "ts_encoder_learning_rate": 9.469494561037097e-06
    },
    {
      "epoch": 0.8362976406533575,
      "grad_norm": 0.4403897777700719,
      "learning_rate": 9.469494561037097e-06,
      "loss": 0.5329,
      "step": 72,
      "ts_encoder_learning_rate": 9.451388498633635e-06
    },
    {
      "epoch": 0.847912885662432,
      "grad_norm": 0.3818885699775511,
      "learning_rate": 9.451388498633635e-06,
      "loss": 0.5365,
      "step": 73,
      "ts_encoder_learning_rate": 9.432996531865001e-06
    },
    {
      "epoch": 0.8595281306715064,
      "grad_norm": 0.40435312969694975,
      "learning_rate": 9.432996531865001e-06,
      "loss": 0.5315,
      "step": 74,
      "ts_encoder_learning_rate": 9.414319842012855e-06
    },
    {
      "epoch": 0.8711433756805808,
      "grad_norm": 0.4248553104454013,
      "learning_rate": 9.414319842012855e-06,
      "loss": 0.533,
      "step": 75,
      "ts_encoder_learning_rate": 9.395359628646087e-06
    },
    {
      "epoch": 0.8827586206896552,
      "grad_norm": 0.39206791521135576,
      "learning_rate": 9.395359628646087e-06,
      "loss": 0.5256,
      "step": 76,
      "ts_encoder_learning_rate": 9.376117109543769e-06
    },
    {
      "epoch": 0.8943738656987296,
      "grad_norm": 0.36377005854333166,
      "learning_rate": 9.376117109543769e-06,
      "loss": 0.5194,
      "step": 77,
      "ts_encoder_learning_rate": 9.356593520616948e-06
    },
    {
      "epoch": 0.905989110707804,
      "grad_norm": 0.43146303271047914,
      "learning_rate": 9.356593520616948e-06,
      "loss": 0.5267,
      "step": 78,
      "ts_encoder_learning_rate": 9.336790115829255e-06
    },
    {
      "epoch": 0.9176043557168784,
      "grad_norm": 0.3621214209550119,
      "learning_rate": 9.336790115829255e-06,
      "loss": 0.5218,
      "step": 79,
      "ts_encoder_learning_rate": 9.316708167116377e-06
    },
    {
      "epoch": 0.9292196007259528,
      "grad_norm": 0.40377960504482446,
      "learning_rate": 9.316708167116377e-06,
      "loss": 0.5214,
      "step": 80,
      "ts_encoder_learning_rate": 9.296348964304351e-06
    },
    {
      "epoch": 0.9408348457350272,
      "grad_norm": 0.3806316238680835,
      "learning_rate": 9.296348964304351e-06,
      "loss": 0.5102,
      "step": 81,
      "ts_encoder_learning_rate": 9.275713815026732e-06
    },
    {
      "epoch": 0.9524500907441016,
      "grad_norm": 0.387322276165842,
      "learning_rate": 9.275713815026732e-06,
      "loss": 0.5069,
      "step": 82,
      "ts_encoder_learning_rate": 9.254804044640596e-06
    },
    {
      "epoch": 0.964065335753176,
      "grad_norm": 0.46164777708230237,
      "learning_rate": 9.254804044640596e-06,
      "loss": 0.4985,
      "step": 83,
      "ts_encoder_learning_rate": 9.233620996141421e-06
    },
    {
      "epoch": 0.9756805807622505,
      "grad_norm": 0.4208251582273127,
      "learning_rate": 9.233620996141421e-06,
      "loss": 0.5086,
      "step": 84,
      "ts_encoder_learning_rate": 9.212166030076832e-06
    },
    {
      "epoch": 0.9872958257713249,
      "grad_norm": 0.43078427861557256,
      "learning_rate": 9.212166030076832e-06,
      "loss": 0.525,
      "step": 85,
      "ts_encoder_learning_rate": 9.190440524459203e-06
    },
    {
      "epoch": 0.9989110707803993,
      "grad_norm": 0.47136114267604184,
      "learning_rate": 9.190440524459203e-06,
      "loss": 0.504,
      "step": 86,
      "ts_encoder_learning_rate": 9.168445874677168e-06
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.47136114267604184,
      "learning_rate": 9.168445874677168e-06,
      "loss": 0.0433,
      "step": 87,
      "ts_encoder_learning_rate": 9.146183493405976e-06
    },
    {
      "epoch": 1.0116152450090745,
      "grad_norm": 0.4459150481878699,
      "learning_rate": 9.146183493405976e-06,
      "loss": 0.4937,
      "step": 88,
      "ts_encoder_learning_rate": 9.12365481051678e-06
    },
    {
      "epoch": 1.0232304900181488,
      "grad_norm": 0.4648677558952652,
      "learning_rate": 9.12365481051678e-06,
      "loss": 0.4814,
      "step": 89,
      "ts_encoder_learning_rate": 9.10086127298478e-06
    },
    {
      "epoch": 1.0348457350272233,
      "grad_norm": 0.424833617058968,
      "learning_rate": 9.10086127298478e-06,
      "loss": 0.4872,
      "step": 90,
      "ts_encoder_learning_rate": 9.077804344796302e-06
    },
    {
      "epoch": 1.0464609800362976,
      "grad_norm": 0.5447833529096903,
      "learning_rate": 9.077804344796302e-06,
      "loss": 0.465,
      "step": 91,
      "ts_encoder_learning_rate": 9.054485506854756e-06
    },
    {
      "epoch": 1.0580762250453721,
      "grad_norm": 0.5645327960600057,
      "learning_rate": 9.054485506854756e-06,
      "loss": 0.465,
      "step": 92,
      "ts_encoder_learning_rate": 9.030906256885528e-06
    },
    {
      "epoch": 1.0696914700544464,
      "grad_norm": 0.5707423730743318,
      "learning_rate": 9.030906256885528e-06,
      "loss": 0.4664,
      "step": 93,
      "ts_encoder_learning_rate": 9.007068109339783e-06
    },
    {
      "epoch": 1.081306715063521,
      "grad_norm": 0.49970416310158533,
      "learning_rate": 9.007068109339783e-06,
      "loss": 0.458,
      "step": 94,
      "ts_encoder_learning_rate": 8.982972595297195e-06
    },
    {
      "epoch": 1.0929219600725952,
      "grad_norm": 0.4760304595595311,
      "learning_rate": 8.982972595297195e-06,
      "loss": 0.4669,
      "step": 95,
      "ts_encoder_learning_rate": 8.9586212623676e-06
    },
    {
      "epoch": 1.1045372050816697,
      "grad_norm": 0.6546521338664805,
      "learning_rate": 8.9586212623676e-06,
      "loss": 0.4631,
      "step": 96,
      "ts_encoder_learning_rate": 8.93401567459161e-06
    },
    {
      "epoch": 1.116152450090744,
      "grad_norm": 0.6820617032835106,
      "learning_rate": 8.93401567459161e-06,
      "loss": 0.4556,
      "step": 97,
      "ts_encoder_learning_rate": 8.90915741234015e-06
    },
    {
      "epoch": 1.1277676950998186,
      "grad_norm": 0.4791674527928274,
      "learning_rate": 8.90915741234015e-06,
      "loss": 0.4461,
      "step": 98,
      "ts_encoder_learning_rate": 8.884048072212952e-06
    },
    {
      "epoch": 1.1393829401088928,
      "grad_norm": 0.8342160989342361,
      "learning_rate": 8.884048072212952e-06,
      "loss": 0.4665,
      "step": 99,
      "ts_encoder_learning_rate": 8.85868926693601e-06
    },
    {
      "epoch": 1.1509981851179674,
      "grad_norm": 0.6077292569121415,
      "learning_rate": 8.85868926693601e-06,
      "loss": 0.4492,
      "step": 100,
      "ts_encoder_learning_rate": 8.833082625258003e-06
    },
    {
      "epoch": 1.1626134301270417,
      "grad_norm": 0.5647955360914533,
      "learning_rate": 8.833082625258003e-06,
      "loss": 0.4435,
      "step": 101,
      "ts_encoder_learning_rate": 8.807229791845673e-06
    },
    {
      "epoch": 1.1742286751361162,
      "grad_norm": 0.6044541014322447,
      "learning_rate": 8.807229791845673e-06,
      "loss": 0.4427,
      "step": 102,
      "ts_encoder_learning_rate": 8.781132427178203e-06
    },
    {
      "epoch": 1.1858439201451905,
      "grad_norm": 0.5437886950515926,
      "learning_rate": 8.781132427178203e-06,
      "loss": 0.4427,
      "step": 103,
      "ts_encoder_learning_rate": 8.754792207440557e-06
    },
    {
      "epoch": 1.197459165154265,
      "grad_norm": 0.5946421067486096,
      "learning_rate": 8.754792207440557e-06,
      "loss": 0.4327,
      "step": 104,
      "ts_encoder_learning_rate": 8.728210824415829e-06
    },
    {
      "epoch": 1.2090744101633395,
      "grad_norm": 0.6434751459915273,
      "learning_rate": 8.728210824415829e-06,
      "loss": 0.4342,
      "step": 105,
      "ts_encoder_learning_rate": 8.701389985376578e-06
    },
    {
      "epoch": 1.2206896551724138,
      "grad_norm": 0.5051510187934748,
      "learning_rate": 8.701389985376578e-06,
      "loss": 0.4398,
      "step": 106,
      "ts_encoder_learning_rate": 8.674331412975178e-06
    },
    {
      "epoch": 1.232304900181488,
      "grad_norm": 0.5595267159920397,
      "learning_rate": 8.674331412975178e-06,
      "loss": 0.442,
      "step": 107,
      "ts_encoder_learning_rate": 8.647036845133171e-06
    },
    {
      "epoch": 1.2439201451905626,
      "grad_norm": 0.525092656163426,
      "learning_rate": 8.647036845133171e-06,
      "loss": 0.43,
      "step": 108,
      "ts_encoder_learning_rate": 8.619508034929646e-06
    },
    {
      "epoch": 1.2555353901996371,
      "grad_norm": 0.5105752951496461,
      "learning_rate": 8.619508034929646e-06,
      "loss": 0.4218,
      "step": 109,
      "ts_encoder_learning_rate": 8.591746750488639e-06
    },
    {
      "epoch": 1.2671506352087114,
      "grad_norm": 0.5231024334601619,
      "learning_rate": 8.591746750488639e-06,
      "loss": 0.4182,
      "step": 110,
      "ts_encoder_learning_rate": 8.563754774865574e-06
    },
    {
      "epoch": 1.278765880217786,
      "grad_norm": 0.4819620849275164,
      "learning_rate": 8.563754774865574e-06,
      "loss": 0.4246,
      "step": 111,
      "ts_encoder_learning_rate": 8.535533905932739e-06
    },
    {
      "epoch": 1.2903811252268602,
      "grad_norm": 0.5106626492387893,
      "learning_rate": 8.535533905932739e-06,
      "loss": 0.4156,
      "step": 112,
      "ts_encoder_learning_rate": 8.507085956263808e-06
    },
    {
      "epoch": 1.3019963702359347,
      "grad_norm": 0.48163467909413527,
      "learning_rate": 8.507085956263808e-06,
      "loss": 0.3944,
      "step": 113,
      "ts_encoder_learning_rate": 8.478412753017433e-06
    },
    {
      "epoch": 1.313611615245009,
      "grad_norm": 0.4708287815222732,
      "learning_rate": 8.478412753017433e-06,
      "loss": 0.4198,
      "step": 114,
      "ts_encoder_learning_rate": 8.449516137819875e-06
    },
    {
      "epoch": 1.3252268602540835,
      "grad_norm": 0.45335927979980417,
      "learning_rate": 8.449516137819875e-06,
      "loss": 0.4004,
      "step": 115,
      "ts_encoder_learning_rate": 8.420397966646732e-06
    },
    {
      "epoch": 1.3368421052631578,
      "grad_norm": 0.4731479114137599,
      "learning_rate": 8.420397966646732e-06,
      "loss": 0.4012,
      "step": 116,
      "ts_encoder_learning_rate": 8.391060109703725e-06
    },
    {
      "epoch": 1.3484573502722323,
      "grad_norm": 0.45763071454798787,
      "learning_rate": 8.391060109703725e-06,
      "loss": 0.4043,
      "step": 117,
      "ts_encoder_learning_rate": 8.361504451306585e-06
    },
    {
      "epoch": 1.3600725952813066,
      "grad_norm": 0.49218004748616023,
      "learning_rate": 8.361504451306585e-06,
      "loss": 0.3804,
      "step": 118,
      "ts_encoder_learning_rate": 8.331732889760021e-06
    },
    {
      "epoch": 1.3716878402903812,
      "grad_norm": 0.48411439748425,
      "learning_rate": 8.331732889760021e-06,
      "loss": 0.3768,
      "step": 119,
      "ts_encoder_learning_rate": 8.301747337235798e-06
    },
    {
      "epoch": 1.3833030852994557,
      "grad_norm": 0.5158115467010486,
      "learning_rate": 8.301747337235798e-06,
      "loss": 0.3893,
      "step": 120,
      "ts_encoder_learning_rate": 8.271549719649923e-06
    },
    {
      "epoch": 1.39491833030853,
      "grad_norm": 0.4717657156486388,
      "learning_rate": 8.271549719649923e-06,
      "loss": 0.3929,
      "step": 121,
      "ts_encoder_learning_rate": 8.241141976538944e-06
    },
    {
      "epoch": 1.4065335753176043,
      "grad_norm": 0.48449961022029603,
      "learning_rate": 8.241141976538944e-06,
      "loss": 0.3903,
      "step": 122,
      "ts_encoder_learning_rate": 8.210526060935377e-06
    },
    {
      "epoch": 1.4181488203266788,
      "grad_norm": 0.5590109000920023,
      "learning_rate": 8.210526060935377e-06,
      "loss": 0.3731,
      "step": 123,
      "ts_encoder_learning_rate": 8.179703939242276e-06
    },
    {
      "epoch": 1.4297640653357533,
      "grad_norm": 0.48980864166559324,
      "learning_rate": 8.179703939242276e-06,
      "loss": 0.37,
      "step": 124,
      "ts_encoder_learning_rate": 8.148677591106919e-06
    },
    {
      "epoch": 1.4413793103448276,
      "grad_norm": 0.49306252756918445,
      "learning_rate": 8.148677591106919e-06,
      "loss": 0.3821,
      "step": 125,
      "ts_encoder_learning_rate": 8.117449009293668e-06
    },
    {
      "epoch": 1.4529945553539019,
      "grad_norm": 0.5343587386921387,
      "learning_rate": 8.117449009293668e-06,
      "loss": 0.388,
      "step": 126,
      "ts_encoder_learning_rate": 8.08602019955598e-06
    },
    {
      "epoch": 1.4646098003629764,
      "grad_norm": 0.4932498699505098,
      "learning_rate": 8.08602019955598e-06,
      "loss": 0.3689,
      "step": 127,
      "ts_encoder_learning_rate": 8.054393180507572e-06
    },
    {
      "epoch": 1.476225045372051,
      "grad_norm": 0.5115591275832498,
      "learning_rate": 8.054393180507572e-06,
      "loss": 0.3705,
      "step": 128,
      "ts_encoder_learning_rate": 8.022569983492781e-06
    },
    {
      "epoch": 1.4878402903811252,
      "grad_norm": 0.5293741893039812,
      "learning_rate": 8.022569983492781e-06,
      "loss": 0.3757,
      "step": 129,
      "ts_encoder_learning_rate": 7.99055265245608e-06
    },
    {
      "epoch": 1.4994555353901997,
      "grad_norm": 0.4820946133813763,
      "learning_rate": 7.99055265245608e-06,
      "loss": 0.3774,
      "step": 130,
      "ts_encoder_learning_rate": 7.958343243810818e-06
    },
    {
      "epoch": 1.511070780399274,
      "grad_norm": 0.5715571029957693,
      "learning_rate": 7.958343243810818e-06,
      "loss": 0.3536,
      "step": 131,
      "ts_encoder_learning_rate": 7.925943826307119e-06
    },
    {
      "epoch": 1.5226860254083485,
      "grad_norm": 0.45688383927056603,
      "learning_rate": 7.925943826307119e-06,
      "loss": 0.3781,
      "step": 132,
      "ts_encoder_learning_rate": 7.89335648089903e-06
    },
    {
      "epoch": 1.5343012704174228,
      "grad_norm": 0.5417387120089402,
      "learning_rate": 7.89335648089903e-06,
      "loss": 0.3849,
      "step": 133,
      "ts_encoder_learning_rate": 7.860583300610849e-06
    },
    {
      "epoch": 1.5459165154264973,
      "grad_norm": 0.48249798152601187,
      "learning_rate": 7.860583300610849e-06,
      "loss": 0.3614,
      "step": 134,
      "ts_encoder_learning_rate": 7.827626390402707e-06
    },
    {
      "epoch": 1.5575317604355718,
      "grad_norm": 0.49148409141245863,
      "learning_rate": 7.827626390402707e-06,
      "loss": 0.3604,
      "step": 135,
      "ts_encoder_learning_rate": 7.794487867035358e-06
    },
    {
      "epoch": 1.5691470054446461,
      "grad_norm": 0.5575426863669594,
      "learning_rate": 7.794487867035358e-06,
      "loss": 0.3582,
      "step": 136,
      "ts_encoder_learning_rate": 7.761169858934238e-06
    },
    {
      "epoch": 1.5807622504537204,
      "grad_norm": 0.47759386240015317,
      "learning_rate": 7.761169858934238e-06,
      "loss": 0.364,
      "step": 137,
      "ts_encoder_learning_rate": 7.727674506052744e-06
    },
    {
      "epoch": 1.592377495462795,
      "grad_norm": 0.5295175062956325,
      "learning_rate": 7.727674506052744e-06,
      "loss": 0.3543,
      "step": 138,
      "ts_encoder_learning_rate": 7.694003959734802e-06
    },
    {
      "epoch": 1.6039927404718695,
      "grad_norm": 0.6604920964139046,
      "learning_rate": 7.694003959734802e-06,
      "loss": 0.3607,
      "step": 139,
      "ts_encoder_learning_rate": 7.660160382576683e-06
    },
    {
      "epoch": 1.6156079854809438,
      "grad_norm": 0.5412776964498659,
      "learning_rate": 7.660160382576683e-06,
      "loss": 0.3494,
      "step": 140,
      "ts_encoder_learning_rate": 7.626145948288107e-06
    },
    {
      "epoch": 1.627223230490018,
      "grad_norm": 0.4885017642227708,
      "learning_rate": 7.626145948288107e-06,
      "loss": 0.3563,
      "step": 141,
      "ts_encoder_learning_rate": 7.591962841552627e-06
    },
    {
      "epoch": 1.6388384754990926,
      "grad_norm": 0.6310454372740532,
      "learning_rate": 7.591962841552627e-06,
      "loss": 0.3513,
      "step": 142,
      "ts_encoder_learning_rate": 7.55761325788731e-06
    },
    {
      "epoch": 1.650453720508167,
      "grad_norm": 0.44382432912819253,
      "learning_rate": 7.55761325788731e-06,
      "loss": 0.3562,
      "step": 143,
      "ts_encoder_learning_rate": 7.52309940350173e-06
    },
    {
      "epoch": 1.6620689655172414,
      "grad_norm": 0.5462511565321053,
      "learning_rate": 7.52309940350173e-06,
      "loss": 0.3461,
      "step": 144,
      "ts_encoder_learning_rate": 7.488423495156258e-06
    },
    {
      "epoch": 1.6736842105263157,
      "grad_norm": 0.4959866346692337,
      "learning_rate": 7.488423495156258e-06,
      "loss": 0.3615,
      "step": 145,
      "ts_encoder_learning_rate": 7.453587760019691e-06
    },
    {
      "epoch": 1.6852994555353902,
      "grad_norm": 0.481447728937644,
      "learning_rate": 7.453587760019691e-06,
      "loss": 0.3532,
      "step": 146,
      "ts_encoder_learning_rate": 7.4185944355261996e-06
    },
    {
      "epoch": 1.6969147005444647,
      "grad_norm": 0.4773235171153849,
      "learning_rate": 7.4185944355261996e-06,
      "loss": 0.3646,
      "step": 147,
      "ts_encoder_learning_rate": 7.383445769231628e-06
    },
    {
      "epoch": 1.708529945553539,
      "grad_norm": 0.4922147267880892,
      "learning_rate": 7.383445769231628e-06,
      "loss": 0.349,
      "step": 148,
      "ts_encoder_learning_rate": 7.348144018669129e-06
    },
    {
      "epoch": 1.7201451905626133,
      "grad_norm": 0.500323445240717,
      "learning_rate": 7.348144018669129e-06,
      "loss": 0.3271,
      "step": 149,
      "ts_encoder_learning_rate": 7.312691451204178e-06
    },
    {
      "epoch": 1.7317604355716878,
      "grad_norm": 0.47751019497636976,
      "learning_rate": 7.312691451204178e-06,
      "loss": 0.3635,
      "step": 150,
      "ts_encoder_learning_rate": 7.277090343888931e-06
    },
    {
      "epoch": 1.7433756805807623,
      "grad_norm": 0.4939172584022833,
      "learning_rate": 7.277090343888931e-06,
      "loss": 0.3522,
      "step": 151,
      "ts_encoder_learning_rate": 7.241342983315985e-06
    },
    {
      "epoch": 1.7549909255898366,
      "grad_norm": 0.526535710546132,
      "learning_rate": 7.241342983315985e-06,
      "loss": 0.3379,
      "step": 152,
      "ts_encoder_learning_rate": 7.205451665471515e-06
    },
    {
      "epoch": 1.7666061705989111,
      "grad_norm": 0.48512244017684314,
      "learning_rate": 7.205451665471515e-06,
      "loss": 0.3671,
      "step": 153,
      "ts_encoder_learning_rate": 7.169418695587791e-06
    },
    {
      "epoch": 1.7782214156079856,
      "grad_norm": 0.5249208108710423,
      "learning_rate": 7.169418695587791e-06,
      "loss": 0.353,
      "step": 154,
      "ts_encoder_learning_rate": 7.1332463879951404e-06
    },
    {
      "epoch": 1.78983666061706,
      "grad_norm": 0.5939685667617669,
      "learning_rate": 7.1332463879951404e-06,
      "loss": 0.3338,
      "step": 155,
      "ts_encoder_learning_rate": 7.096937065973285e-06
    },
    {
      "epoch": 1.8014519056261342,
      "grad_norm": 0.46870716209574953,
      "learning_rate": 7.096937065973285e-06,
      "loss": 0.3258,
      "step": 156,
      "ts_encoder_learning_rate": 7.060493061602128e-06
    },
    {
      "epoch": 1.8130671506352087,
      "grad_norm": 0.5004844023800996,
      "learning_rate": 7.060493061602128e-06,
      "loss": 0.3338,
      "step": 157,
      "ts_encoder_learning_rate": 7.023916715611969e-06
    },
    {
      "epoch": 1.8246823956442833,
      "grad_norm": 0.6018225120929914,
      "learning_rate": 7.023916715611969e-06,
      "loss": 0.3559,
      "step": 158,
      "ts_encoder_learning_rate": 6.987210377233165e-06
    },
    {
      "epoch": 1.8362976406533575,
      "grad_norm": 0.5115688533474527,
      "learning_rate": 6.987210377233165e-06,
      "loss": 0.3215,
      "step": 159,
      "ts_encoder_learning_rate": 6.950376404045235e-06
    },
    {
      "epoch": 1.8479128856624318,
      "grad_norm": 0.5453997597445909,
      "learning_rate": 6.950376404045235e-06,
      "loss": 0.3288,
      "step": 160,
      "ts_encoder_learning_rate": 6.913417161825449e-06
    },
    {
      "epoch": 1.8595281306715064,
      "grad_norm": 0.5468491048869575,
      "learning_rate": 6.913417161825449e-06,
      "loss": 0.3351,
      "step": 161,
      "ts_encoder_learning_rate": 6.876335024396872e-06
    },
    {
      "epoch": 1.8711433756805809,
      "grad_norm": 0.5127435043219846,
      "learning_rate": 6.876335024396872e-06,
      "loss": 0.3261,
      "step": 162,
      "ts_encoder_learning_rate": 6.839132373475894e-06
    },
    {
      "epoch": 1.8827586206896552,
      "grad_norm": 0.5334108745888081,
      "learning_rate": 6.839132373475894e-06,
      "loss": 0.315,
      "step": 163,
      "ts_encoder_learning_rate": 6.801811598519268e-06
    },
    {
      "epoch": 1.8943738656987295,
      "grad_norm": 0.5154441355243857,
      "learning_rate": 6.801811598519268e-06,
      "loss": 0.3427,
      "step": 164,
      "ts_encoder_learning_rate": 6.764375096570628e-06
    },
    {
      "epoch": 1.905989110707804,
      "grad_norm": 0.5561507577872592,
      "learning_rate": 6.764375096570628e-06,
      "loss": 0.3259,
      "step": 165,
      "ts_encoder_learning_rate": 6.726825272106539e-06
    },
    {
      "epoch": 1.9176043557168785,
      "grad_norm": 0.5291334612556954,
      "learning_rate": 6.726825272106539e-06,
      "loss": 0.3198,
      "step": 166,
      "ts_encoder_learning_rate": 6.689164536882059e-06
    },
    {
      "epoch": 1.9292196007259528,
      "grad_norm": 0.5011785801262693,
      "learning_rate": 6.689164536882059e-06,
      "loss": 0.3187,
      "step": 167,
      "ts_encoder_learning_rate": 6.651395309775837e-06
    },
    {
      "epoch": 1.940834845735027,
      "grad_norm": 0.5750688070408072,
      "learning_rate": 6.651395309775837e-06,
      "loss": 0.2997,
      "step": 168,
      "ts_encoder_learning_rate": 6.6135200166347505e-06
    },
    {
      "epoch": 1.9524500907441016,
      "grad_norm": 0.5043052526525891,
      "learning_rate": 6.6135200166347505e-06,
      "loss": 0.3145,
      "step": 169,
      "ts_encoder_learning_rate": 6.575541090118105e-06
    },
    {
      "epoch": 1.964065335753176,
      "grad_norm": 0.4896874363768986,
      "learning_rate": 6.575541090118105e-06,
      "loss": 0.3009,
      "step": 170,
      "ts_encoder_learning_rate": 6.537460969541378e-06
    },
    {
      "epoch": 1.9756805807622504,
      "grad_norm": 0.5088309056638338,
      "learning_rate": 6.537460969541378e-06,
      "loss": 0.3129,
      "step": 171,
      "ts_encoder_learning_rate": 6.499282100719558e-06
    },
    {
      "epoch": 1.987295825771325,
      "grad_norm": 0.49023494845007226,
      "learning_rate": 6.499282100719558e-06,
      "loss": 0.3082,
      "step": 172,
      "ts_encoder_learning_rate": 6.461006935810048e-06
    },
    {
      "epoch": 1.9989110707803994,
      "grad_norm": 0.5280481482147419,
      "learning_rate": 6.461006935810048e-06,
      "loss": 0.302,
      "step": 173,
      "ts_encoder_learning_rate": 6.4226379331551625e-06
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5280481482147419,
      "learning_rate": 6.4226379331551625e-06,
      "loss": 0.0333,
      "step": 174,
      "ts_encoder_learning_rate": 6.384177557124247e-06
    },
    {
      "epoch": 2.0116152450090743,
      "grad_norm": 0.5645755484448244,
      "learning_rate": 6.384177557124247e-06,
      "loss": 0.2784,
      "step": 175,
      "ts_encoder_learning_rate": 6.345628277955384e-06
    },
    {
      "epoch": 2.023230490018149,
      "grad_norm": 0.7089731024549738,
      "learning_rate": 6.345628277955384e-06,
      "loss": 0.2864,
      "step": 176,
      "ts_encoder_learning_rate": 6.306992571596742e-06
    },
    {
      "epoch": 2.0348457350272233,
      "grad_norm": 0.5602666036492625,
      "learning_rate": 6.306992571596742e-06,
      "loss": 0.2881,
      "step": 177,
      "ts_encoder_learning_rate": 6.268272919547537e-06
    },
    {
      "epoch": 2.0464609800362976,
      "grad_norm": 0.6075921236619318,
      "learning_rate": 6.268272919547537e-06,
      "loss": 0.2798,
      "step": 178,
      "ts_encoder_learning_rate": 6.229471808698673e-06
    },
    {
      "epoch": 2.058076225045372,
      "grad_norm": 0.6984592942833859,
      "learning_rate": 6.229471808698673e-06,
      "loss": 0.2673,
      "step": 179,
      "ts_encoder_learning_rate": 6.1905917311729915e-06
    },
    {
      "epoch": 2.0696914700544466,
      "grad_norm": 0.5022810378072105,
      "learning_rate": 6.1905917311729915e-06,
      "loss": 0.2849,
      "step": 180,
      "ts_encoder_learning_rate": 6.151635184165219e-06
    },
    {
      "epoch": 2.081306715063521,
      "grad_norm": 0.5093282715650761,
      "learning_rate": 6.151635184165219e-06,
      "loss": 0.3026,
      "step": 181,
      "ts_encoder_learning_rate": 6.112604669781572e-06
    },
    {
      "epoch": 2.0929219600725952,
      "grad_norm": 0.6048006185139588,
      "learning_rate": 6.112604669781572e-06,
      "loss": 0.2835,
      "step": 182,
      "ts_encoder_learning_rate": 6.073502694879059e-06
    },
    {
      "epoch": 2.1045372050816695,
      "grad_norm": 0.5065083654679191,
      "learning_rate": 6.073502694879059e-06,
      "loss": 0.2782,
      "step": 183,
      "ts_encoder_learning_rate": 6.034331770904455e-06
    },
    {
      "epoch": 2.1161524500907443,
      "grad_norm": 0.5598494532388394,
      "learning_rate": 6.034331770904455e-06,
      "loss": 0.2825,
      "step": 184,
      "ts_encoder_learning_rate": 5.9950944137330125e-06
    },
    {
      "epoch": 2.1277676950998186,
      "grad_norm": 0.530982359241071,
      "learning_rate": 5.9950944137330125e-06,
      "loss": 0.2702,
      "step": 185,
      "ts_encoder_learning_rate": 5.955793143506863e-06
    },
    {
      "epoch": 2.139382940108893,
      "grad_norm": 0.509154289045405,
      "learning_rate": 5.955793143506863e-06,
      "loss": 0.2785,
      "step": 186,
      "ts_encoder_learning_rate": 5.916430484473149e-06
    },
    {
      "epoch": 2.150998185117967,
      "grad_norm": 0.5119364886674341,
      "learning_rate": 5.916430484473149e-06,
      "loss": 0.2895,
      "step": 187,
      "ts_encoder_learning_rate": 5.877008964821909e-06
    },
    {
      "epoch": 2.162613430127042,
      "grad_norm": 0.5034054419615417,
      "learning_rate": 5.877008964821909e-06,
      "loss": 0.2936,
      "step": 188,
      "ts_encoder_learning_rate": 5.837531116523683e-06
    },
    {
      "epoch": 2.174228675136116,
      "grad_norm": 0.5673133335829393,
      "learning_rate": 5.837531116523683e-06,
      "loss": 0.2762,
      "step": 189,
      "ts_encoder_learning_rate": 5.797999475166897e-06
    },
    {
      "epoch": 2.1858439201451905,
      "grad_norm": 0.5459438366130899,
      "learning_rate": 5.797999475166897e-06,
      "loss": 0.2718,
      "step": 190,
      "ts_encoder_learning_rate": 5.7584165797950055e-06
    },
    {
      "epoch": 2.1974591651542648,
      "grad_norm": 0.5533315060900448,
      "learning_rate": 5.7584165797950055e-06,
      "loss": 0.2754,
      "step": 191,
      "ts_encoder_learning_rate": 5.71878497274341e-06
    },
    {
      "epoch": 2.2090744101633395,
      "grad_norm": 0.6022264770129343,
      "learning_rate": 5.71878497274341e-06,
      "loss": 0.2743,
      "step": 192,
      "ts_encoder_learning_rate": 5.679107199476174e-06
    },
    {
      "epoch": 2.220689655172414,
      "grad_norm": 0.5540881606867427,
      "learning_rate": 5.679107199476174e-06,
      "loss": 0.2878,
      "step": 193,
      "ts_encoder_learning_rate": 5.6393858084225305e-06
    },
    {
      "epoch": 2.232304900181488,
      "grad_norm": 0.5577935030781893,
      "learning_rate": 5.6393858084225305e-06,
      "loss": 0.2677,
      "step": 194,
      "ts_encoder_learning_rate": 5.599623350813202e-06
    },
    {
      "epoch": 2.243920145190563,
      "grad_norm": 0.5369265581968106,
      "learning_rate": 5.599623350813202e-06,
      "loss": 0.26,
      "step": 195,
      "ts_encoder_learning_rate": 5.559822380516539e-06
    },
    {
      "epoch": 2.255535390199637,
      "grad_norm": 0.5350922011535203,
      "learning_rate": 5.559822380516539e-06,
      "loss": 0.2936,
      "step": 196,
      "ts_encoder_learning_rate": 5.5199854538744905e-06
    },
    {
      "epoch": 2.2671506352087114,
      "grad_norm": 0.534100714512928,
      "learning_rate": 5.5199854538744905e-06,
      "loss": 0.2756,
      "step": 197,
      "ts_encoder_learning_rate": 5.480115129538409e-06
    },
    {
      "epoch": 2.2787658802177857,
      "grad_norm": 0.5103849200596632,
      "learning_rate": 5.480115129538409e-06,
      "loss": 0.2498,
      "step": 198,
      "ts_encoder_learning_rate": 5.440213968304728e-06
    },
    {
      "epoch": 2.2903811252268604,
      "grad_norm": 0.5702739710122362,
      "learning_rate": 5.440213968304728e-06,
      "loss": 0.2708,
      "step": 199,
      "ts_encoder_learning_rate": 5.4002845329504675e-06
    },
    {
      "epoch": 2.3019963702359347,
      "grad_norm": 0.5216996613028344,
      "learning_rate": 5.4002845329504675e-06,
      "loss": 0.2668,
      "step": 200,
      "ts_encoder_learning_rate": 5.360329388068649e-06
    },
    {
      "epoch": 2.313611615245009,
      "grad_norm": 0.5388651334047538,
      "learning_rate": 5.360329388068649e-06,
      "loss": 0.2703,
      "step": 201,
      "ts_encoder_learning_rate": 5.320351099903565e-06
    },
    {
      "epoch": 2.3252268602540833,
      "grad_norm": 0.6001939955314459,
      "learning_rate": 5.320351099903565e-06,
      "loss": 0.261,
      "step": 202,
      "ts_encoder_learning_rate": 5.2803522361859596e-06
    },
    {
      "epoch": 2.336842105263158,
      "grad_norm": 0.4980937517422858,
      "learning_rate": 5.2803522361859596e-06,
      "loss": 0.2404,
      "step": 203,
      "ts_encoder_learning_rate": 5.240335365968104e-06
    },
    {
      "epoch": 2.3484573502722323,
      "grad_norm": 0.5342465570777747,
      "learning_rate": 5.240335365968104e-06,
      "loss": 0.2654,
      "step": 204,
      "ts_encoder_learning_rate": 5.2003030594587964e-06
    },
    {
      "epoch": 2.3600725952813066,
      "grad_norm": 0.5621041789253622,
      "learning_rate": 5.2003030594587964e-06,
      "loss": 0.2733,
      "step": 205,
      "ts_encoder_learning_rate": 5.160257887858278e-06
    },
    {
      "epoch": 2.371687840290381,
      "grad_norm": 0.5582661532374841,
      "learning_rate": 5.160257887858278e-06,
      "loss": 0.2597,
      "step": 206,
      "ts_encoder_learning_rate": 5.120202423193085e-06
    },
    {
      "epoch": 2.3833030852994557,
      "grad_norm": 0.5783285206586468,
      "learning_rate": 5.120202423193085e-06,
      "loss": 0.2525,
      "step": 207,
      "ts_encoder_learning_rate": 5.080139238150869e-06
    },
    {
      "epoch": 2.39491833030853,
      "grad_norm": 0.4822046196118616,
      "learning_rate": 5.080139238150869e-06,
      "loss": 0.2518,
      "step": 208,
      "ts_encoder_learning_rate": 5.040070905915139e-06
    },
    {
      "epoch": 2.4065335753176043,
      "grad_norm": 0.5559233478270967,
      "learning_rate": 5.040070905915139e-06,
      "loss": 0.28,
      "step": 209,
      "ts_encoder_learning_rate": 5e-06
    },
    {
      "epoch": 2.418148820326679,
      "grad_norm": 0.48901203329897386,
      "learning_rate": 5e-06,
      "loss": 0.2515,
      "step": 210,
      "ts_encoder_learning_rate": 4.959929094084862e-06
    },
    {
      "epoch": 2.4297640653357533,
      "grad_norm": 0.48746183943137245,
      "learning_rate": 4.959929094084862e-06,
      "loss": 0.2518,
      "step": 211,
      "ts_encoder_learning_rate": 4.919860761849132e-06
    },
    {
      "epoch": 2.4413793103448276,
      "grad_norm": 0.5009144470099608,
      "learning_rate": 4.919860761849132e-06,
      "loss": 0.2532,
      "step": 212,
      "ts_encoder_learning_rate": 4.879797576806915e-06
    },
    {
      "epoch": 2.452994555353902,
      "grad_norm": 0.4965510882041085,
      "learning_rate": 4.879797576806915e-06,
      "loss": 0.243,
      "step": 213,
      "ts_encoder_learning_rate": 4.839742112141725e-06
    },
    {
      "epoch": 2.464609800362976,
      "grad_norm": 0.48351081176855426,
      "learning_rate": 4.839742112141725e-06,
      "loss": 0.2596,
      "step": 214,
      "ts_encoder_learning_rate": 4.799696940541204e-06
    },
    {
      "epoch": 2.476225045372051,
      "grad_norm": 0.5172008324226596,
      "learning_rate": 4.799696940541204e-06,
      "loss": 0.236,
      "step": 215,
      "ts_encoder_learning_rate": 4.759664634031897e-06
    },
    {
      "epoch": 2.487840290381125,
      "grad_norm": 0.5571046196144138,
      "learning_rate": 4.759664634031897e-06,
      "loss": 0.2479,
      "step": 216,
      "ts_encoder_learning_rate": 4.719647763814041e-06
    },
    {
      "epoch": 2.4994555353901995,
      "grad_norm": 0.5421950769241719,
      "learning_rate": 4.719647763814041e-06,
      "loss": 0.2691,
      "step": 217,
      "ts_encoder_learning_rate": 4.679648900096436e-06
    },
    {
      "epoch": 2.5110707803992742,
      "grad_norm": 0.5330899469762319,
      "learning_rate": 4.679648900096436e-06,
      "loss": 0.2579,
      "step": 218,
      "ts_encoder_learning_rate": 4.6396706119313526e-06
    },
    {
      "epoch": 2.5226860254083485,
      "grad_norm": 0.5460154625334825,
      "learning_rate": 4.6396706119313526e-06,
      "loss": 0.2496,
      "step": 219,
      "ts_encoder_learning_rate": 4.599715467049534e-06
    },
    {
      "epoch": 2.534301270417423,
      "grad_norm": 0.5440271431449177,
      "learning_rate": 4.599715467049534e-06,
      "loss": 0.2455,
      "step": 220,
      "ts_encoder_learning_rate": 4.559786031695275e-06
    },
    {
      "epoch": 2.545916515426497,
      "grad_norm": 0.5133166382378065,
      "learning_rate": 4.559786031695275e-06,
      "loss": 0.2636,
      "step": 221,
      "ts_encoder_learning_rate": 4.5198848704615915e-06
    },
    {
      "epoch": 2.557531760435572,
      "grad_norm": 0.5366585588218753,
      "learning_rate": 4.5198848704615915e-06,
      "loss": 0.247,
      "step": 222,
      "ts_encoder_learning_rate": 4.480014546125511e-06
    },
    {
      "epoch": 2.569147005444646,
      "grad_norm": 0.5474900733819053,
      "learning_rate": 4.480014546125511e-06,
      "loss": 0.2795,
      "step": 223,
      "ts_encoder_learning_rate": 4.4401776194834615e-06
    },
    {
      "epoch": 2.5807622504537204,
      "grad_norm": 0.4975693304306332,
      "learning_rate": 4.4401776194834615e-06,
      "loss": 0.2401,
      "step": 224,
      "ts_encoder_learning_rate": 4.4003766491867984e-06
    },
    {
      "epoch": 2.592377495462795,
      "grad_norm": 0.5106865786465035,
      "learning_rate": 4.4003766491867984e-06,
      "loss": 0.242,
      "step": 225,
      "ts_encoder_learning_rate": 4.3606141915774695e-06
    },
    {
      "epoch": 2.6039927404718695,
      "grad_norm": 0.5168549085943859,
      "learning_rate": 4.3606141915774695e-06,
      "loss": 0.2335,
      "step": 226,
      "ts_encoder_learning_rate": 4.320892800523827e-06
    },
    {
      "epoch": 2.6156079854809438,
      "grad_norm": 0.5211543822385405,
      "learning_rate": 4.320892800523827e-06,
      "loss": 0.2493,
      "step": 227,
      "ts_encoder_learning_rate": 4.281215027256592e-06
    },
    {
      "epoch": 2.627223230490018,
      "grad_norm": 0.5127128225307483,
      "learning_rate": 4.281215027256592e-06,
      "loss": 0.2514,
      "step": 228,
      "ts_encoder_learning_rate": 4.241583420204998e-06
    },
    {
      "epoch": 2.6388384754990923,
      "grad_norm": 0.5378693778374266,
      "learning_rate": 4.241583420204998e-06,
      "loss": 0.2399,
      "step": 229,
      "ts_encoder_learning_rate": 4.2020005248331056e-06
    },
    {
      "epoch": 2.650453720508167,
      "grad_norm": 0.5721336179178363,
      "learning_rate": 4.2020005248331056e-06,
      "loss": 0.2558,
      "step": 230,
      "ts_encoder_learning_rate": 4.162468883476319e-06
    },
    {
      "epoch": 2.6620689655172414,
      "grad_norm": 0.5507499405880641,
      "learning_rate": 4.162468883476319e-06,
      "loss": 0.2423,
      "step": 231,
      "ts_encoder_learning_rate": 4.122991035178093e-06
    },
    {
      "epoch": 2.6736842105263157,
      "grad_norm": 0.5191297273890276,
      "learning_rate": 4.122991035178093e-06,
      "loss": 0.2387,
      "step": 232,
      "ts_encoder_learning_rate": 4.083569515526853e-06
    },
    {
      "epoch": 2.6852994555353904,
      "grad_norm": 0.5056716954679873,
      "learning_rate": 4.083569515526853e-06,
      "loss": 0.2379,
      "step": 233,
      "ts_encoder_learning_rate": 4.04420685649314e-06
    },
    {
      "epoch": 2.6969147005444647,
      "grad_norm": 0.5020728789197858,
      "learning_rate": 4.04420685649314e-06,
      "loss": 0.2341,
      "step": 234,
      "ts_encoder_learning_rate": 4.004905586266988e-06
    },
    {
      "epoch": 2.708529945553539,
      "grad_norm": 0.49710632823598544,
      "learning_rate": 4.004905586266988e-06,
      "loss": 0.2142,
      "step": 235,
      "ts_encoder_learning_rate": 3.965668229095546e-06
    },
    {
      "epoch": 2.7201451905626133,
      "grad_norm": 0.46282201836826814,
      "learning_rate": 3.965668229095546e-06,
      "loss": 0.25,
      "step": 236,
      "ts_encoder_learning_rate": 3.926497305120943e-06
    },
    {
      "epoch": 2.7317604355716876,
      "grad_norm": 0.5037406395194425,
      "learning_rate": 3.926497305120943e-06,
      "loss": 0.2423,
      "step": 237,
      "ts_encoder_learning_rate": 3.887395330218429e-06
    },
    {
      "epoch": 2.7433756805807623,
      "grad_norm": 0.5502464701719969,
      "learning_rate": 3.887395330218429e-06,
      "loss": 0.2371,
      "step": 238,
      "ts_encoder_learning_rate": 3.848364815834782e-06
    },
    {
      "epoch": 2.7549909255898366,
      "grad_norm": 0.488890082077443,
      "learning_rate": 3.848364815834782e-06,
      "loss": 0.2367,
      "step": 239,
      "ts_encoder_learning_rate": 3.809408268827009e-06
    },
    {
      "epoch": 2.7666061705989113,
      "grad_norm": 0.5122316791585159,
      "learning_rate": 3.809408268827009e-06,
      "loss": 0.2506,
      "step": 240,
      "ts_encoder_learning_rate": 3.7705281913013286e-06
    },
    {
      "epoch": 2.7782214156079856,
      "grad_norm": 0.4868899262078824,
      "learning_rate": 3.7705281913013286e-06,
      "loss": 0.2413,
      "step": 241,
      "ts_encoder_learning_rate": 3.731727080452464e-06
    },
    {
      "epoch": 2.78983666061706,
      "grad_norm": 0.5086075968707988,
      "learning_rate": 3.731727080452464e-06,
      "loss": 0.2421,
      "step": 242,
      "ts_encoder_learning_rate": 3.6930074284032613e-06
    },
    {
      "epoch": 2.801451905626134,
      "grad_norm": 0.49235271981217643,
      "learning_rate": 3.6930074284032613e-06,
      "loss": 0.2406,
      "step": 243,
      "ts_encoder_learning_rate": 3.654371722044616e-06
    },
    {
      "epoch": 2.8130671506352085,
      "grad_norm": 0.49103994839708176,
      "learning_rate": 3.654371722044616e-06,
      "loss": 0.2439,
      "step": 244,
      "ts_encoder_learning_rate": 3.6158224428757538e-06
    },
    {
      "epoch": 2.8246823956442833,
      "grad_norm": 0.9993476254292818,
      "learning_rate": 3.6158224428757538e-06,
      "loss": 0.2268,
      "step": 245,
      "ts_encoder_learning_rate": 3.5773620668448384e-06
    },
    {
      "epoch": 2.8362976406533575,
      "grad_norm": 0.5159214069274143,
      "learning_rate": 3.5773620668448384e-06,
      "loss": 0.2388,
      "step": 246,
      "ts_encoder_learning_rate": 3.538993064189954e-06
    },
    {
      "epoch": 2.847912885662432,
      "grad_norm": 0.543713795445949,
      "learning_rate": 3.538993064189954e-06,
      "loss": 0.2284,
      "step": 247,
      "ts_encoder_learning_rate": 3.500717899280442e-06
    },
    {
      "epoch": 2.8595281306715066,
      "grad_norm": 0.5140037192841642,
      "learning_rate": 3.500717899280442e-06,
      "loss": 0.2305,
      "step": 248,
      "ts_encoder_learning_rate": 3.4625390304586224e-06
    },
    {
      "epoch": 2.871143375680581,
      "grad_norm": 0.49143474790675895,
      "learning_rate": 3.4625390304586224e-06,
      "loss": 0.2348,
      "step": 249,
      "ts_encoder_learning_rate": 3.424458909881897e-06
    },
    {
      "epoch": 2.882758620689655,
      "grad_norm": 0.5203399617942011,
      "learning_rate": 3.424458909881897e-06,
      "loss": 0.2175,
      "step": 250,
      "ts_encoder_learning_rate": 3.386479983365251e-06
    },
    {
      "epoch": 2.8943738656987295,
      "grad_norm": 0.5363618954072708,
      "learning_rate": 3.386479983365251e-06,
      "loss": 0.2289,
      "step": 251,
      "ts_encoder_learning_rate": 3.3486046902241663e-06
    },
    {
      "epoch": 2.9059891107078037,
      "grad_norm": 0.49208512127705756,
      "learning_rate": 3.3486046902241663e-06,
      "loss": 0.2386,
      "step": 252,
      "ts_encoder_learning_rate": 3.310835463117942e-06
    },
    {
      "epoch": 2.9176043557168785,
      "grad_norm": 0.48789242095969204,
      "learning_rate": 3.310835463117942e-06,
      "loss": 0.2392,
      "step": 253,
      "ts_encoder_learning_rate": 3.273174727893463e-06
    },
    {
      "epoch": 2.9292196007259528,
      "grad_norm": 0.5163396778042415,
      "learning_rate": 3.273174727893463e-06,
      "loss": 0.2392,
      "step": 254,
      "ts_encoder_learning_rate": 3.235624903429374e-06
    },
    {
      "epoch": 2.940834845735027,
      "grad_norm": 0.4839363209051733,
      "learning_rate": 3.235624903429374e-06,
      "loss": 0.2294,
      "step": 255,
      "ts_encoder_learning_rate": 3.198188401480734e-06
    },
    {
      "epoch": 2.952450090744102,
      "grad_norm": 0.5099295694573828,
      "learning_rate": 3.198188401480734e-06,
      "loss": 0.214,
      "step": 256,
      "ts_encoder_learning_rate": 3.160867626524107e-06
    },
    {
      "epoch": 2.964065335753176,
      "grad_norm": 0.52866992195366,
      "learning_rate": 3.160867626524107e-06,
      "loss": 0.232,
      "step": 257,
      "ts_encoder_learning_rate": 3.12366497560313e-06
    },
    {
      "epoch": 2.9756805807622504,
      "grad_norm": 0.5016653572033554,
      "learning_rate": 3.12366497560313e-06,
      "loss": 0.2477,
      "step": 258,
      "ts_encoder_learning_rate": 3.0865828381745515e-06
    },
    {
      "epoch": 2.9872958257713247,
      "grad_norm": 0.5704722771230331,
      "learning_rate": 3.0865828381745515e-06,
      "loss": 0.2215,
      "step": 259,
      "ts_encoder_learning_rate": 3.049623595954766e-06
    },
    {
      "epoch": 2.9989110707803994,
      "grad_norm": 0.5049693668147675,
      "learning_rate": 3.049623595954766e-06,
      "loss": 0.2239,
      "step": 260,
      "ts_encoder_learning_rate": 3.0127896227668367e-06
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.5049693668147675,
      "learning_rate": 3.0127896227668367e-06,
      "loss": 0.0215,
      "step": 261,
      "ts_encoder_learning_rate": 2.976083284388031e-06
    },
    {
      "epoch": 3.0116152450090743,
      "grad_norm": 0.6043291464224838,
      "learning_rate": 2.976083284388031e-06,
      "loss": 0.2239,
      "step": 262,
      "ts_encoder_learning_rate": 2.9395069383978725e-06
    },
    {
      "epoch": 3.023230490018149,
      "grad_norm": 0.46138071995137575,
      "learning_rate": 2.9395069383978725e-06,
      "loss": 0.1959,
      "step": 263,
      "ts_encoder_learning_rate": 2.9030629340267165e-06
    },
    {
      "epoch": 3.0348457350272233,
      "grad_norm": 0.6605611111234634,
      "learning_rate": 2.9030629340267165e-06,
      "loss": 0.2223,
      "step": 264,
      "ts_encoder_learning_rate": 2.8667536120048616e-06
    },
    {
      "epoch": 3.0464609800362976,
      "grad_norm": 0.4886966776948408,
      "learning_rate": 2.8667536120048616e-06,
      "loss": 0.2147,
      "step": 265,
      "ts_encoder_learning_rate": 2.83058130441221e-06
    },
    {
      "epoch": 3.058076225045372,
      "grad_norm": 0.603343292555356,
      "learning_rate": 2.83058130441221e-06,
      "loss": 0.2122,
      "step": 266,
      "ts_encoder_learning_rate": 2.794548334528486e-06
    },
    {
      "epoch": 3.0696914700544466,
      "grad_norm": 0.46864057728976466,
      "learning_rate": 2.794548334528486e-06,
      "loss": 0.187,
      "step": 267,
      "ts_encoder_learning_rate": 2.7586570166840154e-06
    },
    {
      "epoch": 3.081306715063521,
      "grad_norm": 0.5904508040534621,
      "learning_rate": 2.7586570166840154e-06,
      "loss": 0.191,
      "step": 268,
      "ts_encoder_learning_rate": 2.7229096561110703e-06
    },
    {
      "epoch": 3.0929219600725952,
      "grad_norm": 0.5389347532364875,
      "learning_rate": 2.7229096561110703e-06,
      "loss": 0.2183,
      "step": 269,
      "ts_encoder_learning_rate": 2.687308548795825e-06
    },
    {
      "epoch": 3.1045372050816695,
      "grad_norm": 0.5130748388642997,
      "learning_rate": 2.687308548795825e-06,
      "loss": 0.2239,
      "step": 270,
      "ts_encoder_learning_rate": 2.651855981330872e-06
    },
    {
      "epoch": 3.1161524500907443,
      "grad_norm": 0.49543600582732883,
      "learning_rate": 2.651855981330872e-06,
      "loss": 0.1958,
      "step": 271,
      "ts_encoder_learning_rate": 2.6165542307683744e-06
    },
    {
      "epoch": 3.1277676950998186,
      "grad_norm": 0.517787257194227,
      "learning_rate": 2.6165542307683744e-06,
      "loss": 0.2171,
      "step": 272,
      "ts_encoder_learning_rate": 2.5814055644738013e-06
    },
    {
      "epoch": 3.139382940108893,
      "grad_norm": 0.5435576653784301,
      "learning_rate": 2.5814055644738013e-06,
      "loss": 0.2144,
      "step": 273,
      "ts_encoder_learning_rate": 2.5464122399803126e-06
    },
    {
      "epoch": 3.150998185117967,
      "grad_norm": 0.5217681007016235,
      "learning_rate": 2.5464122399803126e-06,
      "loss": 0.1963,
      "step": 274,
      "ts_encoder_learning_rate": 2.5115765048437445e-06
    },
    {
      "epoch": 3.162613430127042,
      "grad_norm": 0.4918846481089564,
      "learning_rate": 2.5115765048437445e-06,
      "loss": 0.2244,
      "step": 275,
      "ts_encoder_learning_rate": 2.4769005964982718e-06
    },
    {
      "epoch": 3.174228675136116,
      "grad_norm": 0.4834963808627837,
      "learning_rate": 2.4769005964982718e-06,
      "loss": 0.2125,
      "step": 276,
      "ts_encoder_learning_rate": 2.4423867421126923e-06
    },
    {
      "epoch": 3.1858439201451905,
      "grad_norm": 0.4937777628741182,
      "learning_rate": 2.4423867421126923e-06,
      "loss": 0.2181,
      "step": 277,
      "ts_encoder_learning_rate": 2.408037158447375e-06
    },
    {
      "epoch": 3.1974591651542648,
      "grad_norm": 0.46282845264960937,
      "learning_rate": 2.408037158447375e-06,
      "loss": 0.213,
      "step": 278,
      "ts_encoder_learning_rate": 2.3738540517118953e-06
    },
    {
      "epoch": 3.2090744101633395,
      "grad_norm": 0.5150835355954807,
      "learning_rate": 2.3738540517118953e-06,
      "loss": 0.1852,
      "step": 279,
      "ts_encoder_learning_rate": 2.339839617423318e-06
    },
    {
      "epoch": 3.220689655172414,
      "grad_norm": 0.49870953616723984,
      "learning_rate": 2.339839617423318e-06,
      "loss": 0.207,
      "step": 280,
      "ts_encoder_learning_rate": 2.305996040265198e-06
    },
    {
      "epoch": 3.232304900181488,
      "grad_norm": 0.49174431699593274,
      "learning_rate": 2.305996040265198e-06,
      "loss": 0.2162,
      "step": 281,
      "ts_encoder_learning_rate": 2.272325493947257e-06
    },
    {
      "epoch": 3.243920145190563,
      "grad_norm": 0.4875355155859377,
      "learning_rate": 2.272325493947257e-06,
      "loss": 0.2243,
      "step": 282,
      "ts_encoder_learning_rate": 2.238830141065765e-06
    },
    {
      "epoch": 3.255535390199637,
      "grad_norm": 0.5107168259211297,
      "learning_rate": 2.238830141065765e-06,
      "loss": 0.201,
      "step": 283,
      "ts_encoder_learning_rate": 2.2055121329646416e-06
    },
    {
      "epoch": 3.2671506352087114,
      "grad_norm": 0.4819085595049116,
      "learning_rate": 2.2055121329646416e-06,
      "loss": 0.1981,
      "step": 284,
      "ts_encoder_learning_rate": 2.1723736095972946e-06
    },
    {
      "epoch": 3.2787658802177857,
      "grad_norm": 0.4477936237119145,
      "learning_rate": 2.1723736095972946e-06,
      "loss": 0.1959,
      "step": 285,
      "ts_encoder_learning_rate": 2.139416699389153e-06
    },
    {
      "epoch": 3.2903811252268604,
      "grad_norm": 0.4701102863028192,
      "learning_rate": 2.139416699389153e-06,
      "loss": 0.1936,
      "step": 286,
      "ts_encoder_learning_rate": 2.1066435191009717e-06
    },
    {
      "epoch": 3.3019963702359347,
      "grad_norm": 0.5076017279364189,
      "learning_rate": 2.1066435191009717e-06,
      "loss": 0.214,
      "step": 287,
      "ts_encoder_learning_rate": 2.074056173692881e-06
    },
    {
      "epoch": 3.313611615245009,
      "grad_norm": 0.480769257020111,
      "learning_rate": 2.074056173692881e-06,
      "loss": 0.1793,
      "step": 288,
      "ts_encoder_learning_rate": 2.041656756189184e-06
    },
    {
      "epoch": 3.3252268602540833,
      "grad_norm": 0.4957168313559018,
      "learning_rate": 2.041656756189184e-06,
      "loss": 0.2041,
      "step": 289,
      "ts_encoder_learning_rate": 2.00944734754392e-06
    },
    {
      "epoch": 3.336842105263158,
      "grad_norm": 0.4710750376178812,
      "learning_rate": 2.00944734754392e-06,
      "loss": 0.1945,
      "step": 290,
      "ts_encoder_learning_rate": 1.977430016507222e-06
    },
    {
      "epoch": 3.3484573502722323,
      "grad_norm": 0.45013646064857127,
      "learning_rate": 1.977430016507222e-06,
      "loss": 0.1944,
      "step": 291,
      "ts_encoder_learning_rate": 1.945606819492429e-06
    },
    {
      "epoch": 3.3600725952813066,
      "grad_norm": 0.4963393211559648,
      "learning_rate": 1.945606819492429e-06,
      "loss": 0.2029,
      "step": 292,
      "ts_encoder_learning_rate": 1.913979800444021e-06
    },
    {
      "epoch": 3.371687840290381,
      "grad_norm": 0.45636659614066805,
      "learning_rate": 1.913979800444021e-06,
      "loss": 0.2042,
      "step": 293,
      "ts_encoder_learning_rate": 1.8825509907063328e-06
    },
    {
      "epoch": 3.3833030852994557,
      "grad_norm": 0.48404604144273267,
      "learning_rate": 1.8825509907063328e-06,
      "loss": 0.2073,
      "step": 294,
      "ts_encoder_learning_rate": 1.8513224088930814e-06
    },
    {
      "epoch": 3.39491833030853,
      "grad_norm": 0.4903949616722962,
      "learning_rate": 1.8513224088930814e-06,
      "loss": 0.2117,
      "step": 295,
      "ts_encoder_learning_rate": 1.8202960607577246e-06
    },
    {
      "epoch": 3.4065335753176043,
      "grad_norm": 0.4749952038477868,
      "learning_rate": 1.8202960607577246e-06,
      "loss": 0.2105,
      "step": 296,
      "ts_encoder_learning_rate": 1.7894739390646227e-06
    },
    {
      "epoch": 3.418148820326679,
      "grad_norm": 0.49308201942231306,
      "learning_rate": 1.7894739390646227e-06,
      "loss": 0.1854,
      "step": 297,
      "ts_encoder_learning_rate": 1.7588580234610592e-06
    },
    {
      "epoch": 3.4297640653357533,
      "grad_norm": 0.44330828627883645,
      "learning_rate": 1.7588580234610592e-06,
      "loss": 0.2049,
      "step": 298,
      "ts_encoder_learning_rate": 1.728450280350079e-06
    },
    {
      "epoch": 3.4413793103448276,
      "grad_norm": 0.47198428442224044,
      "learning_rate": 1.728450280350079e-06,
      "loss": 0.1917,
      "step": 299,
      "ts_encoder_learning_rate": 1.6982526627642043e-06
    },
    {
      "epoch": 3.452994555353902,
      "grad_norm": 0.47052296840051827,
      "learning_rate": 1.6982526627642043e-06,
      "loss": 0.1966,
      "step": 300,
      "ts_encoder_learning_rate": 1.6682671102399806e-06
    },
    {
      "epoch": 3.464609800362976,
      "grad_norm": 0.47469220902280884,
      "learning_rate": 1.6682671102399806e-06,
      "loss": 0.1993,
      "step": 301,
      "ts_encoder_learning_rate": 1.6384955486934157e-06
    },
    {
      "epoch": 3.476225045372051,
      "grad_norm": 0.5047215872734404,
      "learning_rate": 1.6384955486934157e-06,
      "loss": 0.2087,
      "step": 302,
      "ts_encoder_learning_rate": 1.6089398902962767e-06
    },
    {
      "epoch": 3.487840290381125,
      "grad_norm": 0.46226600784092325,
      "learning_rate": 1.6089398902962767e-06,
      "loss": 0.2223,
      "step": 303,
      "ts_encoder_learning_rate": 1.5796020333532696e-06
    },
    {
      "epoch": 3.4994555353901995,
      "grad_norm": 0.49692738160329974,
      "learning_rate": 1.5796020333532696e-06,
      "loss": 0.2098,
      "step": 304,
      "ts_encoder_learning_rate": 1.5504838621801272e-06
    },
    {
      "epoch": 3.5110707803992742,
      "grad_norm": 0.44096965404662336,
      "learning_rate": 1.5504838621801272e-06,
      "loss": 0.1917,
      "step": 305,
      "ts_encoder_learning_rate": 1.5215872469825682e-06
    },
    {
      "epoch": 3.5226860254083485,
      "grad_norm": 0.46470354099812156,
      "learning_rate": 1.5215872469825682e-06,
      "loss": 0.2024,
      "step": 306,
      "ts_encoder_learning_rate": 1.4929140437361916e-06
    },
    {
      "epoch": 3.534301270417423,
      "grad_norm": 0.6245744672781995,
      "learning_rate": 1.4929140437361916e-06,
      "loss": 0.1932,
      "step": 307,
      "ts_encoder_learning_rate": 1.4644660940672628e-06
    },
    {
      "epoch": 3.545916515426497,
      "grad_norm": 0.4616850273696799,
      "learning_rate": 1.4644660940672628e-06,
      "loss": 0.1894,
      "step": 308,
      "ts_encoder_learning_rate": 1.4362452251344283e-06
    },
    {
      "epoch": 3.557531760435572,
      "grad_norm": 0.46072956667527437,
      "learning_rate": 1.4362452251344283e-06,
      "loss": 0.1939,
      "step": 309,
      "ts_encoder_learning_rate": 1.4082532495113627e-06
    },
    {
      "epoch": 3.569147005444646,
      "grad_norm": 0.4622635293176079,
      "learning_rate": 1.4082532495113627e-06,
      "loss": 0.1986,
      "step": 310,
      "ts_encoder_learning_rate": 1.3804919650703551e-06
    },
    {
      "epoch": 3.5807622504537204,
      "grad_norm": 0.5048261638194425,
      "learning_rate": 1.3804919650703551e-06,
      "loss": 0.1999,
      "step": 311,
      "ts_encoder_learning_rate": 1.3529631548668298e-06
    },
    {
      "epoch": 3.592377495462795,
      "grad_norm": 0.4265055997084881,
      "learning_rate": 1.3529631548668298e-06,
      "loss": 0.207,
      "step": 312,
      "ts_encoder_learning_rate": 1.3256685870248227e-06
    },
    {
      "epoch": 3.6039927404718695,
      "grad_norm": 0.43467381019959384,
      "learning_rate": 1.3256685870248227e-06,
      "loss": 0.1809,
      "step": 313,
      "ts_encoder_learning_rate": 1.298610014623423e-06
    },
    {
      "epoch": 3.6156079854809438,
      "grad_norm": 0.47840223124389564,
      "learning_rate": 1.298610014623423e-06,
      "loss": 0.1985,
      "step": 314,
      "ts_encoder_learning_rate": 1.2717891755841722e-06
    },
    {
      "epoch": 3.627223230490018,
      "grad_norm": 0.4736005082533798,
      "learning_rate": 1.2717891755841722e-06,
      "loss": 0.2029,
      "step": 315,
      "ts_encoder_learning_rate": 1.2452077925594435e-06
    },
    {
      "epoch": 3.6388384754990923,
      "grad_norm": 0.44359091955078794,
      "learning_rate": 1.2452077925594435e-06,
      "loss": 0.1974,
      "step": 316,
      "ts_encoder_learning_rate": 1.2188675728217986e-06
    },
    {
      "epoch": 3.650453720508167,
      "grad_norm": 0.4835930654461023,
      "learning_rate": 1.2188675728217986e-06,
      "loss": 0.2004,
      "step": 317,
      "ts_encoder_learning_rate": 1.1927702081543279e-06
    },
    {
      "epoch": 3.6620689655172414,
      "grad_norm": 0.4950865344011163,
      "learning_rate": 1.1927702081543279e-06,
      "loss": 0.1971,
      "step": 318,
      "ts_encoder_learning_rate": 1.166917374742e-06
    },
    {
      "epoch": 3.6736842105263157,
      "grad_norm": 0.4542349082763096,
      "learning_rate": 1.166917374742e-06,
      "loss": 0.2029,
      "step": 319,
      "ts_encoder_learning_rate": 1.141310733063991e-06
    },
    {
      "epoch": 3.6852994555353904,
      "grad_norm": 0.4722201030579586,
      "learning_rate": 1.141310733063991e-06,
      "loss": 0.1871,
      "step": 320,
      "ts_encoder_learning_rate": 1.1159519277870507e-06
    },
    {
      "epoch": 3.6969147005444647,
      "grad_norm": 0.44859200333215415,
      "learning_rate": 1.1159519277870507e-06,
      "loss": 0.1912,
      "step": 321,
      "ts_encoder_learning_rate": 1.0908425876598512e-06
    },
    {
      "epoch": 3.708529945553539,
      "grad_norm": 0.46643463691801845,
      "learning_rate": 1.0908425876598512e-06,
      "loss": 0.1845,
      "step": 322,
      "ts_encoder_learning_rate": 1.0659843254083919e-06
    },
    {
      "epoch": 3.7201451905626133,
      "grad_norm": 0.4306281262155224,
      "learning_rate": 1.0659843254083919e-06,
      "loss": 0.1779,
      "step": 323,
      "ts_encoder_learning_rate": 1.041378737632402e-06
    },
    {
      "epoch": 3.7317604355716876,
      "grad_norm": 0.4753156573309627,
      "learning_rate": 1.041378737632402e-06,
      "loss": 0.1989,
      "step": 324,
      "ts_encoder_learning_rate": 1.0170274047028068e-06
    },
    {
      "epoch": 3.7433756805807623,
      "grad_norm": 0.45875837749866927,
      "learning_rate": 1.0170274047028068e-06,
      "loss": 0.1912,
      "step": 325,
      "ts_encoder_learning_rate": 9.929318906602176e-07
    },
    {
      "epoch": 3.7549909255898366,
      "grad_norm": 0.4823250266490247,
      "learning_rate": 9.929318906602176e-07,
      "loss": 0.194,
      "step": 326,
      "ts_encoder_learning_rate": 9.690937431144725e-07
    },
    {
      "epoch": 3.7666061705989113,
      "grad_norm": 0.4354804449964891,
      "learning_rate": 9.690937431144725e-07,
      "loss": 0.193,
      "step": 327,
      "ts_encoder_learning_rate": 9.455144931452459e-07
    },
    {
      "epoch": 3.7782214156079856,
      "grad_norm": 0.4634865596978523,
      "learning_rate": 9.455144931452459e-07,
      "loss": 0.2046,
      "step": 328,
      "ts_encoder_learning_rate": 9.221956552036992e-07
    },
    {
      "epoch": 3.78983666061706,
      "grad_norm": 0.455260620824431,
      "learning_rate": 9.221956552036992e-07,
      "loss": 0.1939,
      "step": 329,
      "ts_encoder_learning_rate": 8.991387270152202e-07
    },
    {
      "epoch": 3.801451905626134,
      "grad_norm": 0.49649814336003645,
      "learning_rate": 8.991387270152202e-07,
      "loss": 0.2102,
      "step": 330,
      "ts_encoder_learning_rate": 8.76345189483222e-07
    },
    {
      "epoch": 3.8130671506352085,
      "grad_norm": 0.49114892681403455,
      "learning_rate": 8.76345189483222e-07,
      "loss": 0.1963,
      "step": 331,
      "ts_encoder_learning_rate": 8.538165065940263e-07
    },
    {
      "epoch": 3.8246823956442833,
      "grad_norm": 0.5286315843085168,
      "learning_rate": 8.538165065940263e-07,
      "loss": 0.2193,
      "step": 332,
      "ts_encoder_learning_rate": 8.315541253228332e-07
    },
    {
      "epoch": 3.8362976406533575,
      "grad_norm": 0.4405444221304671,
      "learning_rate": 8.315541253228332e-07,
      "loss": 0.1914,
      "step": 333,
      "ts_encoder_learning_rate": 8.095594755407971e-07
    },
    {
      "epoch": 3.847912885662432,
      "grad_norm": 0.4698521600536052,
      "learning_rate": 8.095594755407971e-07,
      "loss": 0.2235,
      "step": 334,
      "ts_encoder_learning_rate": 7.878339699231702e-07
    },
    {
      "epoch": 3.8595281306715066,
      "grad_norm": 0.4371598229337324,
      "learning_rate": 7.878339699231702e-07,
      "loss": 0.1839,
      "step": 335,
      "ts_encoder_learning_rate": 7.663790038585794e-07
    },
    {
      "epoch": 3.871143375680581,
      "grad_norm": 0.45962066234037935,
      "learning_rate": 7.663790038585794e-07,
      "loss": 0.1995,
      "step": 336,
      "ts_encoder_learning_rate": 7.451959553594051e-07
    },
    {
      "epoch": 3.882758620689655,
      "grad_norm": 0.42173091596380397,
      "learning_rate": 7.451959553594051e-07,
      "loss": 0.1827,
      "step": 337,
      "ts_encoder_learning_rate": 7.242861849732696e-07
    },
    {
      "epoch": 3.8943738656987295,
      "grad_norm": 0.4331430485638045,
      "learning_rate": 7.242861849732696e-07,
      "loss": 0.2012,
      "step": 338,
      "ts_encoder_learning_rate": 7.036510356956494e-07
    },
    {
      "epoch": 3.9059891107078037,
      "grad_norm": 0.4465736646292548,
      "learning_rate": 7.036510356956494e-07,
      "loss": 0.1989,
      "step": 339,
      "ts_encoder_learning_rate": 6.832918328836247e-07
    },
    {
      "epoch": 3.9176043557168785,
      "grad_norm": 0.43493507516276353,
      "learning_rate": 6.832918328836247e-07,
      "loss": 0.1951,
      "step": 340,
      "ts_encoder_learning_rate": 6.632098841707458e-07
    },
    {
      "epoch": 3.9292196007259528,
      "grad_norm": 0.42038926625601386,
      "learning_rate": 6.632098841707458e-07,
      "loss": 0.1915,
      "step": 341,
      "ts_encoder_learning_rate": 6.43406479383053e-07
    },
    {
      "epoch": 3.940834845735027,
      "grad_norm": 0.46480078485720294,
      "learning_rate": 6.43406479383053e-07,
      "loss": 0.1917,
      "step": 342,
      "ts_encoder_learning_rate": 6.238828904562316e-07
    },
    {
      "epoch": 3.952450090744102,
      "grad_norm": 0.4490758579669617,
      "learning_rate": 6.238828904562316e-07,
      "loss": 0.2059,
      "step": 343,
      "ts_encoder_learning_rate": 6.04640371353914e-07
    },
    {
      "epoch": 3.964065335753176,
      "grad_norm": 0.4613515058442109,
      "learning_rate": 6.04640371353914e-07,
      "loss": 0.1985,
      "step": 344,
      "ts_encoder_learning_rate": 5.856801579871457e-07
    },
    {
      "epoch": 3.9756805807622504,
      "grad_norm": 0.4456006110376394,
      "learning_rate": 5.856801579871457e-07,
      "loss": 0.2025,
      "step": 345,
      "ts_encoder_learning_rate": 5.670034681349995e-07
    },
    {
      "epoch": 3.9872958257713247,
      "grad_norm": 0.42933039768161857,
      "learning_rate": 5.670034681349995e-07,
      "loss": 0.2012,
      "step": 346,
      "ts_encoder_learning_rate": 5.486115013663668e-07
    },
    {
      "epoch": 3.9989110707803994,
      "grad_norm": 0.44999338968368285,
      "learning_rate": 5.486115013663668e-07,
      "loss": 0.187,
      "step": 347,
      "ts_encoder_learning_rate": 5.305054389629022e-07
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.44999338968368285,
      "learning_rate": 5.305054389629022e-07,
      "loss": 0.0145,
      "step": 348,
      "ts_encoder_learning_rate": 5.126864438431628e-07
    },
    {
      "epoch": 4.011615245009074,
      "grad_norm": 0.42250491238346477,
      "learning_rate": 5.126864438431628e-07,
      "loss": 0.1884,
      "step": 349,
      "ts_encoder_learning_rate": 4.951556604879049e-07
    },
    {
      "epoch": 4.023230490018149,
      "grad_norm": 0.4230629092251735,
      "learning_rate": 4.951556604879049e-07,
      "loss": 0.1905,
      "step": 350,
      "ts_encoder_learning_rate": 4.779142148665855e-07
    },
    {
      "epoch": 4.034845735027223,
      "grad_norm": 0.4174529397738527,
      "learning_rate": 4.779142148665855e-07,
      "loss": 0.1658,
      "step": 351,
      "ts_encoder_learning_rate": 4.6096321436504e-07
    },
    {
      "epoch": 4.046460980036298,
      "grad_norm": 0.43118539472845935,
      "learning_rate": 4.6096321436504e-07,
      "loss": 0.184,
      "step": 352,
      "ts_encoder_learning_rate": 4.4430374771435245e-07
    },
    {
      "epoch": 4.058076225045372,
      "grad_norm": 0.41001720611475784,
      "learning_rate": 4.4430374771435245e-07,
      "loss": 0.1828,
      "step": 353,
      "ts_encoder_learning_rate": 4.279368849209381e-07
    },
    {
      "epoch": 4.069691470054447,
      "grad_norm": 0.4308084296921054,
      "learning_rate": 4.279368849209381e-07,
      "loss": 0.1964,
      "step": 354,
      "ts_encoder_learning_rate": 4.1186367719780737e-07
    },
    {
      "epoch": 4.081306715063521,
      "grad_norm": 0.4407009368252455,
      "learning_rate": 4.1186367719780737e-07,
      "loss": 0.1735,
      "step": 355,
      "ts_encoder_learning_rate": 3.960851568970586e-07
    },
    {
      "epoch": 4.092921960072595,
      "grad_norm": 0.41256069394964856,
      "learning_rate": 3.960851568970586e-07,
      "loss": 0.1911,
      "step": 356,
      "ts_encoder_learning_rate": 3.8060233744356634e-07
    },
    {
      "epoch": 4.1045372050816695,
      "grad_norm": 0.4221589175474974,
      "learning_rate": 3.8060233744356634e-07,
      "loss": 0.1863,
      "step": 357,
      "ts_encoder_learning_rate": 3.6541621326989183e-07
    },
    {
      "epoch": 4.116152450090744,
      "grad_norm": 0.42751127372899456,
      "learning_rate": 3.6541621326989183e-07,
      "loss": 0.2028,
      "step": 358,
      "ts_encoder_learning_rate": 3.5052775975241203e-07
    },
    {
      "epoch": 4.127767695099818,
      "grad_norm": 0.40851979892771395,
      "learning_rate": 3.5052775975241203e-07,
      "loss": 0.1718,
      "step": 359,
      "ts_encoder_learning_rate": 3.359379331486762e-07
    },
    {
      "epoch": 4.139382940108893,
      "grad_norm": 0.41178087270431546,
      "learning_rate": 3.359379331486762e-07,
      "loss": 0.181,
      "step": 360,
      "ts_encoder_learning_rate": 3.216476705359839e-07
    },
    {
      "epoch": 4.150998185117968,
      "grad_norm": 0.4104761665945451,
      "learning_rate": 3.216476705359839e-07,
      "loss": 0.1872,
      "step": 361,
      "ts_encoder_learning_rate": 3.076578897511978e-07
    },
    {
      "epoch": 4.162613430127042,
      "grad_norm": 0.41012969922765047,
      "learning_rate": 3.076578897511978e-07,
      "loss": 0.182,
      "step": 362,
      "ts_encoder_learning_rate": 2.939694893317979e-07
    },
    {
      "epoch": 4.174228675136116,
      "grad_norm": 0.41789852835375363,
      "learning_rate": 2.939694893317979e-07,
      "loss": 0.1937,
      "step": 363,
      "ts_encoder_learning_rate": 2.8058334845816214e-07
    },
    {
      "epoch": 4.1858439201451905,
      "grad_norm": 0.42143167915544566,
      "learning_rate": 2.8058334845816214e-07,
      "loss": 0.1838,
      "step": 364,
      "ts_encoder_learning_rate": 2.6750032689710604e-07
    },
    {
      "epoch": 4.197459165154265,
      "grad_norm": 0.39213432837711776,
      "learning_rate": 2.6750032689710604e-07,
      "loss": 0.1742,
      "step": 365,
      "ts_encoder_learning_rate": 2.547212649466568e-07
    },
    {
      "epoch": 4.209074410163339,
      "grad_norm": 0.3958142973041478,
      "learning_rate": 2.547212649466568e-07,
      "loss": 0.1919,
      "step": 366,
      "ts_encoder_learning_rate": 2.4224698338208344e-07
    },
    {
      "epoch": 4.220689655172414,
      "grad_norm": 0.44213215894104213,
      "learning_rate": 2.4224698338208344e-07,
      "loss": 0.1841,
      "step": 367,
      "ts_encoder_learning_rate": 2.3007828340318117e-07
    },
    {
      "epoch": 4.2323049001814885,
      "grad_norm": 0.4245037412302445,
      "learning_rate": 2.3007828340318117e-07,
      "loss": 0.1891,
      "step": 368,
      "ts_encoder_learning_rate": 2.1821594658280932e-07
    },
    {
      "epoch": 4.243920145190563,
      "grad_norm": 0.4132437127742664,
      "learning_rate": 2.1821594658280932e-07,
      "loss": 0.1803,
      "step": 369,
      "ts_encoder_learning_rate": 2.0666073481669714e-07
    },
    {
      "epoch": 4.255535390199637,
      "grad_norm": 0.411342871117412,
      "learning_rate": 2.0666073481669714e-07,
      "loss": 0.1812,
      "step": 370,
      "ts_encoder_learning_rate": 1.9541339027450256e-07
    },
    {
      "epoch": 4.267150635208711,
      "grad_norm": 0.42070511786632736,
      "learning_rate": 1.9541339027450256e-07,
      "loss": 0.1781,
      "step": 371,
      "ts_encoder_learning_rate": 1.8447463535214872e-07
    },
    {
      "epoch": 4.278765880217786,
      "grad_norm": 0.3960054704602751,
      "learning_rate": 1.8447463535214872e-07,
      "loss": 0.1872,
      "step": 372,
      "ts_encoder_learning_rate": 1.7384517262542255e-07
    },
    {
      "epoch": 4.29038112522686,
      "grad_norm": 0.4146312365888249,
      "learning_rate": 1.7384517262542255e-07,
      "loss": 0.1996,
      "step": 373,
      "ts_encoder_learning_rate": 1.6352568480485277e-07
    },
    {
      "epoch": 4.301996370235934,
      "grad_norm": 0.4302254069498354,
      "learning_rate": 1.6352568480485277e-07,
      "loss": 0.1799,
      "step": 374,
      "ts_encoder_learning_rate": 1.5351683469185973e-07
    },
    {
      "epoch": 4.3136116152450095,
      "grad_norm": 0.4048487003041662,
      "learning_rate": 1.5351683469185973e-07,
      "loss": 0.1853,
      "step": 375,
      "ts_encoder_learning_rate": 1.4381926513618139e-07
    },
    {
      "epoch": 4.325226860254084,
      "grad_norm": 0.4340645587831662,
      "learning_rate": 1.4381926513618139e-07,
      "loss": 0.1745,
      "step": 376,
      "ts_encoder_learning_rate": 1.3443359899458997e-07
    },
    {
      "epoch": 4.336842105263158,
      "grad_norm": 0.419931335758943,
      "learning_rate": 1.3443359899458997e-07,
      "loss": 0.2001,
      "step": 377,
      "ts_encoder_learning_rate": 1.253604390908819e-07
    },
    {
      "epoch": 4.348457350272232,
      "grad_norm": 0.41065254305787063,
      "learning_rate": 1.253604390908819e-07,
      "loss": 0.1856,
      "step": 378,
      "ts_encoder_learning_rate": 1.1660036817716492e-07
    },
    {
      "epoch": 4.360072595281307,
      "grad_norm": 0.4386933347694567,
      "learning_rate": 1.1660036817716492e-07,
      "loss": 0.1885,
      "step": 379,
      "ts_encoder_learning_rate": 1.0815394889642339e-07
    },
    {
      "epoch": 4.371687840290381,
      "grad_norm": 0.4206901632288436,
      "learning_rate": 1.0815394889642339e-07,
      "loss": 0.1855,
      "step": 380,
      "ts_encoder_learning_rate": 1.0002172374638519e-07
    },
    {
      "epoch": 4.383303085299455,
      "grad_norm": 0.45345577005415333,
      "learning_rate": 1.0002172374638519e-07,
      "loss": 0.201,
      "step": 381,
      "ts_encoder_learning_rate": 9.22042150446728e-08
    },
    {
      "epoch": 4.3949183303085295,
      "grad_norm": 0.42825131486091655,
      "learning_rate": 9.22042150446728e-08,
      "loss": 0.1977,
      "step": 382,
      "ts_encoder_learning_rate": 8.470192489526519e-08
    },
    {
      "epoch": 4.406533575317605,
      "grad_norm": 0.4180892476123211,
      "learning_rate": 8.470192489526519e-08,
      "loss": 0.1819,
      "step": 383,
      "ts_encoder_learning_rate": 7.7515335156238e-08
    },
    {
      "epoch": 4.418148820326679,
      "grad_norm": 0.3988898186373836,
      "learning_rate": 7.7515335156238e-08,
      "loss": 0.1845,
      "step": 384,
      "ts_encoder_learning_rate": 7.064490740882057e-08
    },
    {
      "epoch": 4.429764065335753,
      "grad_norm": 0.4224273125164809,
      "learning_rate": 7.064490740882057e-08,
      "loss": 0.1831,
      "step": 385,
      "ts_encoder_learning_rate": 6.409108292774912e-08
    },
    {
      "epoch": 4.441379310344828,
      "grad_norm": 0.40574161987282553,
      "learning_rate": 6.409108292774912e-08,
      "loss": 0.1884,
      "step": 386,
      "ts_encoder_learning_rate": 5.785428265292381e-08
    },
    {
      "epoch": 4.452994555353902,
      "grad_norm": 0.4205040886436754,
      "learning_rate": 5.785428265292381e-08,
      "loss": 0.1854,
      "step": 387,
      "ts_encoder_learning_rate": 5.1934907162370374e-08
    },
    {
      "epoch": 4.464609800362976,
      "grad_norm": 0.41648710747921297,
      "learning_rate": 5.1934907162370374e-08,
      "loss": 0.1756,
      "step": 388,
      "ts_encoder_learning_rate": 4.63333366465174e-08
    },
    {
      "epoch": 4.4762250453720505,
      "grad_norm": 0.39540267589707684,
      "learning_rate": 4.63333366465174e-08,
      "loss": 0.1831,
      "step": 389,
      "ts_encoder_learning_rate": 4.104993088376974e-08
    },
    {
      "epoch": 4.487840290381126,
      "grad_norm": 0.3927817907648021,
      "learning_rate": 4.104993088376974e-08,
      "loss": 0.1742,
      "step": 390,
      "ts_encoder_learning_rate": 3.608502921740753e-08
    },
    {
      "epoch": 4.4994555353902,
      "grad_norm": 0.43059843726946884,
      "learning_rate": 3.608502921740753e-08,
      "loss": 0.1922,
      "step": 391,
      "ts_encoder_learning_rate": 3.143895053378698e-08
    },
    {
      "epoch": 4.511070780399274,
      "grad_norm": 0.41821997175820497,
      "learning_rate": 3.143895053378698e-08,
      "loss": 0.188,
      "step": 392,
      "ts_encoder_learning_rate": 2.7111993241860646e-08
    },
    {
      "epoch": 4.5226860254083485,
      "grad_norm": 0.44898297045915464,
      "learning_rate": 2.7111993241860646e-08,
      "loss": 0.195,
      "step": 393,
      "ts_encoder_learning_rate": 2.3104435254008852e-08
    },
    {
      "epoch": 4.534301270417423,
      "grad_norm": 0.41081766017860594,
      "learning_rate": 2.3104435254008852e-08,
      "loss": 0.1764,
      "step": 394,
      "ts_encoder_learning_rate": 1.9416533968193428e-08
    },
    {
      "epoch": 4.545916515426497,
      "grad_norm": 0.4267367649318197,
      "learning_rate": 1.9416533968193428e-08,
      "loss": 0.178,
      "step": 395,
      "ts_encoder_learning_rate": 1.6048526251421502e-08
    },
    {
      "epoch": 4.557531760435571,
      "grad_norm": 0.40492762389862497,
      "learning_rate": 1.6048526251421502e-08,
      "loss": 0.1833,
      "step": 396,
      "ts_encoder_learning_rate": 1.3000628424535978e-08
    },
    {
      "epoch": 4.569147005444647,
      "grad_norm": 0.41530646634421503,
      "learning_rate": 1.3000628424535978e-08,
      "loss": 0.1764,
      "step": 397,
      "ts_encoder_learning_rate": 1.0273036248318325e-08
    },
    {
      "epoch": 4.580762250453721,
      "grad_norm": 0.41054541493317387,
      "learning_rate": 1.0273036248318325e-08,
      "loss": 0.1884,
      "step": 398,
      "ts_encoder_learning_rate": 7.865924910916977e-09
    },
    {
      "epoch": 4.592377495462795,
      "grad_norm": 0.3927284291620028,
      "learning_rate": 7.865924910916977e-09,
      "loss": 0.174,
      "step": 399,
      "ts_encoder_learning_rate": 5.779449016595773e-09
    },
    {
      "epoch": 4.6039927404718695,
      "grad_norm": 0.40810543942098576,
      "learning_rate": 5.779449016595773e-09,
      "loss": 0.1944,
      "step": 400,
      "ts_encoder_learning_rate": 4.0137425758018935e-09
    },
    {
      "epoch": 4.6039927404718695,
      "step": 400,
      "total_flos": 667646607294464.0,
      "train_loss": 0.43487690573791044,
      "train_runtime": 29492.4665,
      "train_samples_per_second": 6.944,
      "train_steps_per_second": 0.014,
      "ts_encoder_learning_rate": 4.0137425758018935e-09
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 400,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 667646607294464.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}