{
  "best_metric": 0.65642351,
  "best_model_checkpoint": "/m2v_intern/zhangzhicheng03/code/face-llm/ms-swift/Emo-CFG_bs-512_data-ATTR_OPEN_EMO_MIC_500k_CAP_78k_RATIONALE_120k_scratch_3B_lr-2e-5/v2-20250515-154834/checkpoint-2704",
  "epoch": 1.9994455738310848,
  "eval_steps": 50,
  "global_step": 2704,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0007392348918868971,
      "grad_norm": 7.145988573209412,
      "learning_rate": 1.9999993250737395e-05,
      "loss": 1.997387409210205,
      "memory(GiB)": 30.3,
      "step": 1,
      "token_acc": 0.5373563218390804,
      "train_speed(iter/s)": 0.022542
    },
    {
      "epoch": 0.0036961744594344852,
      "grad_norm": 4.16117609244522,
      "learning_rate": 1.9999831268890388e-05,
      "loss": 1.7683343887329102,
      "memory(GiB)": 30.88,
      "step": 5,
      "token_acc": 0.5186522262334536,
      "train_speed(iter/s)": 0.047276
    },
    {
      "epoch": 0.0073923489188689705,
      "grad_norm": 1.9968396412286222,
      "learning_rate": 1.999932508125559e-05,
      "loss": 1.4955159187316895,
      "memory(GiB)": 40.49,
      "step": 10,
      "token_acc": 0.5502183406113537,
      "train_speed(iter/s)": 0.057642
    },
    {
      "epoch": 0.011088523378303456,
      "grad_norm": 1.6222058869585758,
      "learning_rate": 1.9998481454177528e-05,
      "loss": 1.4060004234313965,
      "memory(GiB)": 40.49,
      "step": 15,
      "token_acc": 0.6005361930294906,
      "train_speed(iter/s)": 0.059714
    },
    {
      "epoch": 0.014784697837737941,
      "grad_norm": 1.873832697605311,
      "learning_rate": 1.9997300416125426e-05,
      "loss": 1.3838209152221679,
      "memory(GiB)": 40.49,
      "step": 20,
      "token_acc": 0.607051282051282,
      "train_speed(iter/s)": 0.060073
    },
    {
      "epoch": 0.018480872297172428,
      "grad_norm": 1.659686579754198,
      "learning_rate": 1.9995782006954852e-05,
      "loss": 1.3265121459960938,
      "memory(GiB)": 40.49,
      "step": 25,
      "token_acc": 0.5963340122199593,
      "train_speed(iter/s)": 0.062445
    },
    {
      "epoch": 0.02217704675660691,
      "grad_norm": 1.8215744972131866,
      "learning_rate": 1.9993926277906387e-05,
      "loss": 1.3122464179992677,
      "memory(GiB)": 54.96,
      "step": 30,
      "token_acc": 0.5690406976744186,
      "train_speed(iter/s)": 0.06221
    },
    {
      "epoch": 0.0258732212160414,
      "grad_norm": 1.5674638552693054,
      "learning_rate": 1.9991733291603873e-05,
      "loss": 1.3101771354675293,
      "memory(GiB)": 54.96,
      "step": 35,
      "token_acc": 0.5990697674418605,
      "train_speed(iter/s)": 0.061909
    },
    {
      "epoch": 0.029569395675475882,
      "grad_norm": 1.8121545652568625,
      "learning_rate": 1.998920312205231e-05,
      "loss": 1.2577611923217773,
      "memory(GiB)": 54.96,
      "step": 40,
      "token_acc": 0.6322274881516587,
      "train_speed(iter/s)": 0.062755
    },
    {
      "epoch": 0.03326557013491037,
      "grad_norm": 1.7654732822991834,
      "learning_rate": 1.9986335854635364e-05,
      "loss": 1.2739611625671388,
      "memory(GiB)": 54.96,
      "step": 45,
      "token_acc": 0.5852668213457076,
      "train_speed(iter/s)": 0.062974
    },
    {
      "epoch": 0.036961744594344856,
      "grad_norm": 1.3381865017125096,
      "learning_rate": 1.9983131586112474e-05,
      "loss": 1.2759986877441407,
      "memory(GiB)": 54.96,
      "step": 50,
      "token_acc": 0.6090799517878666,
      "train_speed(iter/s)": 0.0626
    },
    {
      "epoch": 0.036961744594344856,
      "eval_loss": 0.8683156967163086,
      "eval_runtime": 85.8388,
      "eval_samples_per_second": 81.49,
      "eval_steps_per_second": 0.641,
      "eval_token_acc": 0.5936057826607904,
      "step": 50
    },
    {
      "epoch": 0.040657919053779336,
      "grad_norm": 1.7881784961595093,
      "learning_rate": 1.9979590424615597e-05,
      "loss": 1.2275705337524414,
      "memory(GiB)": 74.93,
      "step": 55,
      "token_acc": 0.5959502991256328,
      "train_speed(iter/s)": 0.055536
    },
    {
      "epoch": 0.04435409351321382,
      "grad_norm": 1.523952154354778,
      "learning_rate": 1.997571248964556e-05,
      "loss": 1.2908334732055664,
      "memory(GiB)": 74.93,
      "step": 60,
      "token_acc": 0.6143884892086331,
      "train_speed(iter/s)": 0.056437
    },
    {
      "epoch": 0.04805026797264831,
      "grad_norm": 1.629094517207129,
      "learning_rate": 1.9971497912068014e-05,
      "loss": 1.262259292602539,
      "memory(GiB)": 74.93,
      "step": 65,
      "token_acc": 0.6196943972835314,
      "train_speed(iter/s)": 0.05732
    },
    {
      "epoch": 0.0517464424320828,
      "grad_norm": 1.4002823703096854,
      "learning_rate": 1.9966946834109026e-05,
      "loss": 1.2578742980957032,
      "memory(GiB)": 74.93,
      "step": 70,
      "token_acc": 0.5597722960151803,
      "train_speed(iter/s)": 0.057646
    },
    {
      "epoch": 0.05544261689151728,
      "grad_norm": 1.3922622186923228,
      "learning_rate": 1.9962059409350286e-05,
      "loss": 1.2903871536254883,
      "memory(GiB)": 74.93,
      "step": 75,
      "token_acc": 0.5871787786681404,
      "train_speed(iter/s)": 0.058082
    },
    {
      "epoch": 0.059138791350951764,
      "grad_norm": 1.5357768582962403,
      "learning_rate": 1.9956835802723916e-05,
      "loss": 1.2582176208496094,
      "memory(GiB)": 74.93,
      "step": 80,
      "token_acc": 0.5863981319322825,
      "train_speed(iter/s)": 0.05893
    },
    {
      "epoch": 0.06283496581038625,
      "grad_norm": 1.5430442318289654,
      "learning_rate": 1.9951276190506903e-05,
      "loss": 1.2459497451782227,
      "memory(GiB)": 74.93,
      "step": 85,
      "token_acc": 0.5826538176426983,
      "train_speed(iter/s)": 0.059014
    },
    {
      "epoch": 0.06653114026982074,
      "grad_norm": 1.5964710010210896,
      "learning_rate": 1.9945380760315153e-05,
      "loss": 1.2252405166625977,
      "memory(GiB)": 74.93,
      "step": 90,
      "token_acc": 0.6162060301507538,
      "train_speed(iter/s)": 0.059178
    },
    {
      "epoch": 0.07022731472925522,
      "grad_norm": 1.5295447471837036,
      "learning_rate": 1.9939149711097164e-05,
      "loss": 1.235156536102295,
      "memory(GiB)": 74.93,
      "step": 95,
      "token_acc": 0.6264632848527847,
      "train_speed(iter/s)": 0.059963
    },
    {
      "epoch": 0.07392348918868971,
      "grad_norm": 1.3740769902051975,
      "learning_rate": 1.9932583253127302e-05,
      "loss": 1.2441673278808594,
      "memory(GiB)": 74.93,
      "step": 100,
      "token_acc": 0.6724137931034483,
      "train_speed(iter/s)": 0.060048
    },
    {
      "epoch": 0.07392348918868971,
      "eval_loss": 0.8143442273139954,
      "eval_runtime": 82.7498,
      "eval_samples_per_second": 84.532,
      "eval_steps_per_second": 0.665,
      "eval_token_acc": 0.6014724453258288,
      "step": 100
    },
    {
      "epoch": 0.07761966364812418,
      "grad_norm": 1.4813264557157313,
      "learning_rate": 1.992568160799872e-05,
      "loss": 1.2064315795898437,
      "memory(GiB)": 74.93,
      "step": 105,
      "token_acc": 0.6042131350681537,
      "train_speed(iter/s)": 0.056686
    },
    {
      "epoch": 0.08131583810755867,
      "grad_norm": 1.4543500652550134,
      "learning_rate": 1.9918445008615862e-05,
      "loss": 1.2109683990478515,
      "memory(GiB)": 74.93,
      "step": 110,
      "token_acc": 0.5906810035842294,
      "train_speed(iter/s)": 0.056861
    },
    {
      "epoch": 0.08501201256699316,
      "grad_norm": 1.4682139055625663,
      "learning_rate": 1.9910873699186618e-05,
      "loss": 1.2368173599243164,
      "memory(GiB)": 74.93,
      "step": 115,
      "token_acc": 0.5186114596403179,
      "train_speed(iter/s)": 0.057469
    },
    {
      "epoch": 0.08870818702642765,
      "grad_norm": 1.3995801521088191,
      "learning_rate": 1.990296793521408e-05,
      "loss": 1.2045980453491212,
      "memory(GiB)": 74.93,
      "step": 120,
      "token_acc": 0.5862884160756501,
      "train_speed(iter/s)": 0.057707
    },
    {
      "epoch": 0.09240436148586213,
      "grad_norm": 1.3021560572956736,
      "learning_rate": 1.989472798348791e-05,
      "loss": 1.2566261291503906,
      "memory(GiB)": 74.93,
      "step": 125,
      "token_acc": 0.5944492254733219,
      "train_speed(iter/s)": 0.057808
    },
    {
      "epoch": 0.09610053594529662,
      "grad_norm": 1.4712133484369752,
      "learning_rate": 1.9886154122075344e-05,
      "loss": 1.192431640625,
      "memory(GiB)": 74.93,
      "step": 130,
      "token_acc": 0.5911908646003262,
      "train_speed(iter/s)": 0.058231
    },
    {
      "epoch": 0.0997967104047311,
      "grad_norm": 1.3130768997154976,
      "learning_rate": 1.9877246640311818e-05,
      "loss": 1.2078176498413087,
      "memory(GiB)": 74.93,
      "step": 135,
      "token_acc": 0.6265611990008326,
      "train_speed(iter/s)": 0.058455
    },
    {
      "epoch": 0.1034928848641656,
      "grad_norm": 1.3930149495863555,
      "learning_rate": 1.9868005838791185e-05,
      "loss": 1.2078091621398925,
      "memory(GiB)": 74.93,
      "step": 140,
      "token_acc": 0.583790628957366,
      "train_speed(iter/s)": 0.05851
    },
    {
      "epoch": 0.10718905932360008,
      "grad_norm": 1.3209379748185142,
      "learning_rate": 1.9858432029355584e-05,
      "loss": 1.2318389892578125,
      "memory(GiB)": 74.93,
      "step": 145,
      "token_acc": 0.5777182235834609,
      "train_speed(iter/s)": 0.058766
    },
    {
      "epoch": 0.11088523378303455,
      "grad_norm": 1.5171021117309256,
      "learning_rate": 1.9848525535084916e-05,
      "loss": 1.2017921447753905,
      "memory(GiB)": 74.93,
      "step": 150,
      "token_acc": 0.6249167221852099,
      "train_speed(iter/s)": 0.059012
    },
    {
      "epoch": 0.11088523378303455,
      "eval_loss": 0.8016136884689331,
      "eval_runtime": 89.0739,
      "eval_samples_per_second": 78.53,
      "eval_steps_per_second": 0.617,
      "eval_token_acc": 0.6041989394145771,
      "step": 150
    },
    {
      "epoch": 0.11458140824246904,
      "grad_norm": 1.3505800383266968,
      "learning_rate": 1.983828669028593e-05,
      "loss": 1.1807826042175293,
      "memory(GiB)": 74.93,
      "step": 155,
      "token_acc": 0.6214278069142674,
      "train_speed(iter/s)": 0.056798
    },
    {
      "epoch": 0.11827758270190353,
      "grad_norm": 1.3315385057884146,
      "learning_rate": 1.9827715840480962e-05,
      "loss": 1.1823822021484376,
      "memory(GiB)": 74.93,
      "step": 160,
      "token_acc": 0.6380498145204028,
      "train_speed(iter/s)": 0.056862
    },
    {
      "epoch": 0.12197375716133801,
      "grad_norm": 1.5704533949100516,
      "learning_rate": 1.9816813342396245e-05,
      "loss": 1.1738862991333008,
      "memory(GiB)": 74.93,
      "step": 165,
      "token_acc": 0.6022625781482585,
      "train_speed(iter/s)": 0.057054
    },
    {
      "epoch": 0.1256699316207725,
      "grad_norm": 1.379238427568713,
      "learning_rate": 1.980557956394991e-05,
      "loss": 1.1857439041137696,
      "memory(GiB)": 74.93,
      "step": 170,
      "token_acc": 0.620583717357911,
      "train_speed(iter/s)": 0.05738
    },
    {
      "epoch": 0.129366106080207,
      "grad_norm": 1.2583564805641094,
      "learning_rate": 1.9794014884239532e-05,
      "loss": 1.2060420989990235,
      "memory(GiB)": 74.93,
      "step": 175,
      "token_acc": 0.6253842775581906,
      "train_speed(iter/s)": 0.057484
    },
    {
      "epoch": 0.13306228053964148,
      "grad_norm": 1.3557017685070272,
      "learning_rate": 1.9782119693529358e-05,
      "loss": 1.2089680671691894,
      "memory(GiB)": 74.93,
      "step": 180,
      "token_acc": 0.6479481641468683,
      "train_speed(iter/s)": 0.057624
    },
    {
      "epoch": 0.13675845499907596,
      "grad_norm": 1.29022693500859,
      "learning_rate": 1.9769894393237135e-05,
      "loss": 1.1686654090881348,
      "memory(GiB)": 74.93,
      "step": 185,
      "token_acc": 0.6546961325966851,
      "train_speed(iter/s)": 0.057936
    },
    {
      "epoch": 0.14045462945851045,
      "grad_norm": 1.3838281227163587,
      "learning_rate": 1.975733939592056e-05,
      "loss": 1.2134584426879882,
      "memory(GiB)": 74.93,
      "step": 190,
      "token_acc": 0.6140988372093024,
      "train_speed(iter/s)": 0.058017
    },
    {
      "epoch": 0.14415080391794494,
      "grad_norm": 1.4298593013480252,
      "learning_rate": 1.974445512526336e-05,
      "loss": 1.1823249816894532,
      "memory(GiB)": 74.93,
      "step": 195,
      "token_acc": 0.5794074793589121,
      "train_speed(iter/s)": 0.058072
    },
    {
      "epoch": 0.14784697837737942,
      "grad_norm": 1.319725742779011,
      "learning_rate": 1.9731242016060985e-05,
      "loss": 1.237997055053711,
      "memory(GiB)": 74.93,
      "step": 200,
      "token_acc": 0.605226480836237,
      "train_speed(iter/s)": 0.058321
    },
    {
      "epoch": 0.14784697837737942,
      "eval_loss": 0.7794498801231384,
      "eval_runtime": 92.8737,
      "eval_samples_per_second": 75.317,
      "eval_steps_per_second": 0.592,
      "eval_token_acc": 0.6082148043319165,
      "step": 200
    },
    {
      "epoch": 0.1515431528368139,
      "grad_norm": 1.2737166952101895,
      "learning_rate": 1.9717700514205963e-05,
      "loss": 1.1960806846618652,
      "memory(GiB)": 74.93,
      "step": 205,
      "token_acc": 0.6102411135968183,
      "train_speed(iter/s)": 0.056695
    },
    {
      "epoch": 0.15523932729624837,
      "grad_norm": 1.392555342325795,
      "learning_rate": 1.9703831076672807e-05,
      "loss": 1.1904547691345215,
      "memory(GiB)": 74.93,
      "step": 210,
      "token_acc": 0.6277756868648852,
      "train_speed(iter/s)": 0.056817
    },
    {
      "epoch": 0.15893550175568286,
      "grad_norm": 1.31415101390755,
      "learning_rate": 1.9689634171502642e-05,
      "loss": 1.1859335899353027,
      "memory(GiB)": 74.93,
      "step": 215,
      "token_acc": 0.6238479262672811,
      "train_speed(iter/s)": 0.056878
    },
    {
      "epoch": 0.16263167621511734,
      "grad_norm": 1.309289118136438,
      "learning_rate": 1.967511027778738e-05,
      "loss": 1.1907655715942382,
      "memory(GiB)": 74.93,
      "step": 220,
      "token_acc": 0.6154311649016642,
      "train_speed(iter/s)": 0.05712
    },
    {
      "epoch": 0.16632785067455183,
      "grad_norm": 1.263699514290592,
      "learning_rate": 1.966025988565356e-05,
      "loss": 1.1906933784484863,
      "memory(GiB)": 74.93,
      "step": 225,
      "token_acc": 0.6170634920634921,
      "train_speed(iter/s)": 0.057279
    },
    {
      "epoch": 0.17002402513398632,
      "grad_norm": 1.2660283851596872,
      "learning_rate": 1.9645083496245815e-05,
      "loss": 1.2014826774597167,
      "memory(GiB)": 74.93,
      "step": 230,
      "token_acc": 0.5935228023793787,
      "train_speed(iter/s)": 0.057316
    },
    {
      "epoch": 0.1737201995934208,
      "grad_norm": 1.2430321644094078,
      "learning_rate": 1.962958162170994e-05,
      "loss": 1.189725971221924,
      "memory(GiB)": 74.93,
      "step": 235,
      "token_acc": 0.7096774193548387,
      "train_speed(iter/s)": 0.057486
    },
    {
      "epoch": 0.1774163740528553,
      "grad_norm": 1.3183460023053968,
      "learning_rate": 1.961375478517564e-05,
      "loss": 1.1756509780883788,
      "memory(GiB)": 74.93,
      "step": 240,
      "token_acc": 0.6048,
      "train_speed(iter/s)": 0.057691
    },
    {
      "epoch": 0.18111254851228978,
      "grad_norm": 1.256458444055883,
      "learning_rate": 1.9597603520738853e-05,
      "loss": 1.1867225646972657,
      "memory(GiB)": 74.93,
      "step": 245,
      "token_acc": 0.6193625977149729,
      "train_speed(iter/s)": 0.057716
    },
    {
      "epoch": 0.18480872297172427,
      "grad_norm": 1.2002856679979195,
      "learning_rate": 1.9581128373443733e-05,
      "loss": 1.1792646408081056,
      "memory(GiB)": 74.93,
      "step": 250,
      "token_acc": 0.6049046321525886,
      "train_speed(iter/s)": 0.057828
    },
    {
      "epoch": 0.18480872297172427,
      "eval_loss": 0.7706022262573242,
      "eval_runtime": 87.903,
      "eval_samples_per_second": 79.576,
      "eval_steps_per_second": 0.626,
      "eval_token_acc": 0.6092432997735232,
      "step": 250
    },
    {
      "epoch": 0.18850489743115875,
      "grad_norm": 1.2231576564807567,
      "learning_rate": 1.9564329899264252e-05,
      "loss": 1.1703492164611817,
      "memory(GiB)": 74.93,
      "step": 255,
      "token_acc": 0.6188424362408291,
      "train_speed(iter/s)": 0.056504
    },
    {
      "epoch": 0.19220107189059324,
      "grad_norm": 1.1802132132030512,
      "learning_rate": 1.954720866508546e-05,
      "loss": 1.17109956741333,
      "memory(GiB)": 74.93,
      "step": 260,
      "token_acc": 0.6199639206253759,
      "train_speed(iter/s)": 0.056699
    },
    {
      "epoch": 0.19589724635002773,
      "grad_norm": 1.3103486430673341,
      "learning_rate": 1.9529765248684308e-05,
      "loss": 1.1841205596923827,
      "memory(GiB)": 74.93,
      "step": 265,
      "token_acc": 0.5825649622799665,
      "train_speed(iter/s)": 0.056764
    },
    {
      "epoch": 0.1995934208094622,
      "grad_norm": 1.3602279829039154,
      "learning_rate": 1.951200023871021e-05,
      "loss": 1.1760824203491211,
      "memory(GiB)": 74.93,
      "step": 270,
      "token_acc": 0.6165368484122229,
      "train_speed(iter/s)": 0.056855
    },
    {
      "epoch": 0.2032895952688967,
      "grad_norm": 1.2205622648558432,
      "learning_rate": 1.949391423466513e-05,
      "loss": 1.1814783096313477,
      "memory(GiB)": 74.93,
      "step": 275,
      "token_acc": 0.6155863619333084,
      "train_speed(iter/s)": 0.057043
    },
    {
      "epoch": 0.2069857697283312,
      "grad_norm": 1.2638744947898215,
      "learning_rate": 1.9475507846883377e-05,
      "loss": 1.1977863311767578,
      "memory(GiB)": 74.93,
      "step": 280,
      "token_acc": 0.6115591397849462,
      "train_speed(iter/s)": 0.057131
    },
    {
      "epoch": 0.21068194418776567,
      "grad_norm": 1.208174719234681,
      "learning_rate": 1.9456781696510996e-05,
      "loss": 1.1798893928527832,
      "memory(GiB)": 74.93,
      "step": 285,
      "token_acc": 0.6450809464508095,
      "train_speed(iter/s)": 0.057208
    },
    {
      "epoch": 0.21437811864720016,
      "grad_norm": 1.29989102329814,
      "learning_rate": 1.943773641548481e-05,
      "loss": 1.1305645942687987,
      "memory(GiB)": 74.93,
      "step": 290,
      "token_acc": 0.6185250219490781,
      "train_speed(iter/s)": 0.057373
    },
    {
      "epoch": 0.21807429310663462,
      "grad_norm": 1.2869046963327413,
      "learning_rate": 1.9418372646511104e-05,
      "loss": 1.1689376831054688,
      "memory(GiB)": 74.93,
      "step": 295,
      "token_acc": 0.639083030472463,
      "train_speed(iter/s)": 0.057472
    },
    {
      "epoch": 0.2217704675660691,
      "grad_norm": 1.3262776988217382,
      "learning_rate": 1.939869104304392e-05,
      "loss": 1.1520153045654298,
      "memory(GiB)": 74.93,
      "step": 300,
      "token_acc": 0.6394881170018282,
      "train_speed(iter/s)": 0.05753
    },
    {
      "epoch": 0.2217704675660691,
      "eval_loss": 0.7643480896949768,
      "eval_runtime": 83.8503,
      "eval_samples_per_second": 83.422,
      "eval_steps_per_second": 0.656,
      "eval_token_acc": 0.6108027805160715,
      "step": 300
    },
    {
      "epoch": 0.2254666420255036,
      "grad_norm": 1.2789640840585799,
      "learning_rate": 1.937869226926302e-05,
      "loss": 1.1876554489135742,
      "memory(GiB)": 74.93,
      "step": 305,
      "token_acc": 0.6270755222281735,
      "train_speed(iter/s)": 0.056408
    },
    {
      "epoch": 0.22916281648493808,
      "grad_norm": 1.3387432374923267,
      "learning_rate": 1.9358377000051457e-05,
      "loss": 1.152684211730957,
      "memory(GiB)": 74.93,
      "step": 310,
      "token_acc": 0.5908354547558435,
      "train_speed(iter/s)": 0.056571
    },
    {
      "epoch": 0.23285899094437257,
      "grad_norm": 1.3158521752921148,
      "learning_rate": 1.9337745920972817e-05,
      "loss": 1.1474998474121094,
      "memory(GiB)": 74.93,
      "step": 315,
      "token_acc": 0.6453079785035138,
      "train_speed(iter/s)": 0.056681
    },
    {
      "epoch": 0.23655516540380706,
      "grad_norm": 1.3574666032311622,
      "learning_rate": 1.9316799728248074e-05,
      "loss": 1.1646709442138672,
      "memory(GiB)": 74.93,
      "step": 320,
      "token_acc": 0.6396255850234009,
      "train_speed(iter/s)": 0.056747
    },
    {
      "epoch": 0.24025133986324154,
      "grad_norm": 1.5220421984558397,
      "learning_rate": 1.9295539128732096e-05,
      "loss": 1.1289070129394532,
      "memory(GiB)": 74.93,
      "step": 325,
      "token_acc": 0.6495638789122627,
      "train_speed(iter/s)": 0.056887
    },
    {
      "epoch": 0.24394751432267603,
      "grad_norm": 1.2325001012228407,
      "learning_rate": 1.927396483988979e-05,
      "loss": 1.1668661117553711,
      "memory(GiB)": 74.93,
      "step": 330,
      "token_acc": 0.6125099390405513,
      "train_speed(iter/s)": 0.05701
    },
    {
      "epoch": 0.24764368878211052,
      "grad_norm": 1.3455071899618125,
      "learning_rate": 1.92520775897719e-05,
      "loss": 1.160017967224121,
      "memory(GiB)": 74.93,
      "step": 335,
      "token_acc": 0.6224098234842671,
      "train_speed(iter/s)": 0.057069
    },
    {
      "epoch": 0.251339863241545,
      "grad_norm": 1.1193101615271859,
      "learning_rate": 1.922987811699042e-05,
      "loss": 1.164522933959961,
      "memory(GiB)": 74.93,
      "step": 340,
      "token_acc": 0.6142303969022265,
      "train_speed(iter/s)": 0.057185
    },
    {
      "epoch": 0.2550360377009795,
      "grad_norm": 1.184835291510033,
      "learning_rate": 1.9207367170693688e-05,
      "loss": 1.1658490180969239,
      "memory(GiB)": 74.93,
      "step": 345,
      "token_acc": 0.6181616832779624,
      "train_speed(iter/s)": 0.057315
    },
    {
      "epoch": 0.258732212160414,
      "grad_norm": 1.2033091005460579,
      "learning_rate": 1.918454551054109e-05,
      "loss": 1.174658966064453,
      "memory(GiB)": 74.93,
      "step": 350,
      "token_acc": 0.6646234676007006,
      "train_speed(iter/s)": 0.057368
    },
    {
      "epoch": 0.258732212160414,
      "eval_loss": 0.7548633813858032,
      "eval_runtime": 84.0949,
      "eval_samples_per_second": 83.18,
      "eval_steps_per_second": 0.654,
      "eval_token_acc": 0.6124072795776128,
      "step": 350
    },
    {
      "epoch": 0.26242838661984846,
      "grad_norm": 1.1971162317002557,
      "learning_rate": 1.916141390667744e-05,
      "loss": 1.1562774658203125,
      "memory(GiB)": 74.93,
      "step": 355,
      "token_acc": 0.6173011120615911,
      "train_speed(iter/s)": 0.056434
    },
    {
      "epoch": 0.26612456107928295,
      "grad_norm": 1.1301068933758331,
      "learning_rate": 1.9137973139706973e-05,
      "loss": 1.2061149597167968,
      "memory(GiB)": 74.93,
      "step": 360,
      "token_acc": 0.5783767946088485,
      "train_speed(iter/s)": 0.056501
    },
    {
      "epoch": 0.26982073553871744,
      "grad_norm": 1.2885970736252064,
      "learning_rate": 1.9114224000667014e-05,
      "loss": 1.1453168869018555,
      "memory(GiB)": 74.93,
      "step": 365,
      "token_acc": 0.6045895851721095,
      "train_speed(iter/s)": 0.056637
    },
    {
      "epoch": 0.2735169099981519,
      "grad_norm": 1.2008587437465796,
      "learning_rate": 1.9090167291001278e-05,
      "loss": 1.151451015472412,
      "memory(GiB)": 74.93,
      "step": 370,
      "token_acc": 0.6464088397790055,
      "train_speed(iter/s)": 0.056724
    },
    {
      "epoch": 0.2772130844575864,
      "grad_norm": 1.2574733188940939,
      "learning_rate": 1.9065803822532825e-05,
      "loss": 1.143141269683838,
      "memory(GiB)": 74.93,
      "step": 375,
      "token_acc": 0.6279554937413073,
      "train_speed(iter/s)": 0.056779
    },
    {
      "epoch": 0.2809092589170209,
      "grad_norm": 1.2230232638304774,
      "learning_rate": 1.9041134417436674e-05,
      "loss": 1.1681084632873535,
      "memory(GiB)": 74.93,
      "step": 380,
      "token_acc": 0.6278735632183908,
      "train_speed(iter/s)": 0.0569
    },
    {
      "epoch": 0.2846054333764554,
      "grad_norm": 1.308574420114396,
      "learning_rate": 1.9016159908212044e-05,
      "loss": 1.1313629150390625,
      "memory(GiB)": 74.93,
      "step": 385,
      "token_acc": 0.6380670611439843,
      "train_speed(iter/s)": 0.056973
    },
    {
      "epoch": 0.2883016078358899,
      "grad_norm": 1.1949255351547317,
      "learning_rate": 1.899088113765426e-05,
      "loss": 1.1681228637695313,
      "memory(GiB)": 74.93,
      "step": 390,
      "token_acc": 0.6130952380952381,
      "train_speed(iter/s)": 0.057013
    },
    {
      "epoch": 0.29199778229532436,
      "grad_norm": 1.1669478994026365,
      "learning_rate": 1.896529895882633e-05,
      "loss": 1.1387041091918946,
      "memory(GiB)": 74.93,
      "step": 395,
      "token_acc": 0.6152671755725191,
      "train_speed(iter/s)": 0.05713
    },
    {
      "epoch": 0.29569395675475885,
      "grad_norm": 1.197646998798649,
      "learning_rate": 1.8939414235030137e-05,
      "loss": 1.1374378204345703,
      "memory(GiB)": 74.93,
      "step": 400,
      "token_acc": 0.6037667511771098,
      "train_speed(iter/s)": 0.057204
    },
    {
      "epoch": 0.29569395675475885,
      "eval_loss": 0.7541109323501587,
      "eval_runtime": 86.4511,
      "eval_samples_per_second": 80.913,
      "eval_steps_per_second": 0.636,
      "eval_token_acc": 0.613960988740803,
      "step": 400
    },
    {
      "epoch": 0.29939013121419333,
      "grad_norm": 1.3110127948907355,
      "learning_rate": 1.8913227839777305e-05,
      "loss": 1.1630861282348632,
      "memory(GiB)": 74.93,
      "step": 405,
      "token_acc": 0.6250439264378588,
      "train_speed(iter/s)": 0.056415
    },
    {
      "epoch": 0.3030863056736278,
      "grad_norm": 1.2066723455387354,
      "learning_rate": 1.8886740656759755e-05,
      "loss": 1.1657712936401368,
      "memory(GiB)": 74.93,
      "step": 410,
      "token_acc": 0.6286093594424162,
      "train_speed(iter/s)": 0.056469
    },
    {
      "epoch": 0.3067824801330623,
      "grad_norm": 1.214334257623402,
      "learning_rate": 1.8859953579819833e-05,
      "loss": 1.129319953918457,
      "memory(GiB)": 74.93,
      "step": 415,
      "token_acc": 0.5934997644842205,
      "train_speed(iter/s)": 0.056572
    },
    {
      "epoch": 0.31047865459249674,
      "grad_norm": 1.260998092054749,
      "learning_rate": 1.883286751292018e-05,
      "loss": 1.125650119781494,
      "memory(GiB)": 74.93,
      "step": 420,
      "token_acc": 0.6005237125400058,
      "train_speed(iter/s)": 0.056666
    },
    {
      "epoch": 0.3141748290519312,
      "grad_norm": 1.1445762169453673,
      "learning_rate": 1.880548337011323e-05,
      "loss": 1.1848130226135254,
      "memory(GiB)": 74.93,
      "step": 425,
      "token_acc": 0.5819639278557114,
      "train_speed(iter/s)": 0.05671
    },
    {
      "epoch": 0.3178710035113657,
      "grad_norm": 1.2219231261580983,
      "learning_rate": 1.8777802075510338e-05,
      "loss": 1.1647357940673828,
      "memory(GiB)": 74.93,
      "step": 430,
      "token_acc": 0.6077451592754528,
      "train_speed(iter/s)": 0.056776
    },
    {
      "epoch": 0.3215671779708002,
      "grad_norm": 1.1956915969147472,
      "learning_rate": 1.8749824563250615e-05,
      "loss": 1.1394176483154297,
      "memory(GiB)": 74.93,
      "step": 435,
      "token_acc": 0.6606451612903226,
      "train_speed(iter/s)": 0.056853
    },
    {
      "epoch": 0.3252633524302347,
      "grad_norm": 1.3354423066052745,
      "learning_rate": 1.8721551777469397e-05,
      "loss": 1.152536964416504,
      "memory(GiB)": 74.93,
      "step": 440,
      "token_acc": 0.5991432068543452,
      "train_speed(iter/s)": 0.056906
    },
    {
      "epoch": 0.3289595268896692,
      "grad_norm": 1.2562915522841382,
      "learning_rate": 1.869298467226639e-05,
      "loss": 1.1220308303833009,
      "memory(GiB)": 74.93,
      "step": 445,
      "token_acc": 0.6066666666666667,
      "train_speed(iter/s)": 0.056963
    },
    {
      "epoch": 0.33265570134910366,
      "grad_norm": 1.359582068477731,
      "learning_rate": 1.8664124211673468e-05,
      "loss": 1.1504764556884766,
      "memory(GiB)": 74.93,
      "step": 450,
      "token_acc": 0.5973016235993597,
      "train_speed(iter/s)": 0.057049
    },
    {
      "epoch": 0.33265570134910366,
      "eval_loss": 0.7460736632347107,
      "eval_runtime": 88.8045,
      "eval_samples_per_second": 78.769,
      "eval_steps_per_second": 0.619,
      "eval_token_acc": 0.6144388755116506,
      "step": 450
    },
    {
      "epoch": 0.33635187580853815,
      "grad_norm": 1.218975457419414,
      "learning_rate": 1.863497136962213e-05,
      "loss": 1.1313959121704102,
      "memory(GiB)": 74.93,
      "step": 455,
      "token_acc": 0.6262968874700718,
      "train_speed(iter/s)": 0.056354
    },
    {
      "epoch": 0.34004805026797263,
      "grad_norm": 1.4342194151464063,
      "learning_rate": 1.8605527129910663e-05,
      "loss": 1.1549379348754882,
      "memory(GiB)": 74.93,
      "step": 460,
      "token_acc": 0.6472244569589702,
      "train_speed(iter/s)": 0.056414
    },
    {
      "epoch": 0.3437442247274071,
      "grad_norm": 1.440358796861357,
      "learning_rate": 1.857579248617091e-05,
      "loss": 1.129042625427246,
      "memory(GiB)": 74.93,
      "step": 465,
      "token_acc": 0.6356026785714286,
      "train_speed(iter/s)": 0.05648
    },
    {
      "epoch": 0.3474403991868416,
      "grad_norm": 1.2091541968931232,
      "learning_rate": 1.854576844183476e-05,
      "loss": 1.1230792999267578,
      "memory(GiB)": 74.93,
      "step": 470,
      "token_acc": 0.6001645413410119,
      "train_speed(iter/s)": 0.056566
    },
    {
      "epoch": 0.3511365736462761,
      "grad_norm": 1.212497545728028,
      "learning_rate": 1.8515456010100274e-05,
      "loss": 1.1627266883850098,
      "memory(GiB)": 74.93,
      "step": 475,
      "token_acc": 0.6375609756097561,
      "train_speed(iter/s)": 0.056633
    },
    {
      "epoch": 0.3548327481057106,
      "grad_norm": 1.257170599310577,
      "learning_rate": 1.8484856213897496e-05,
      "loss": 1.1552623748779296,
      "memory(GiB)": 74.93,
      "step": 480,
      "token_acc": 0.6367495451788963,
      "train_speed(iter/s)": 0.056696
    },
    {
      "epoch": 0.35852892256514507,
      "grad_norm": 1.3061990827470522,
      "learning_rate": 1.8453970085853953e-05,
      "loss": 1.1611719131469727,
      "memory(GiB)": 74.93,
      "step": 485,
      "token_acc": 0.5953002610966057,
      "train_speed(iter/s)": 0.056777
    },
    {
      "epoch": 0.36222509702457956,
      "grad_norm": 1.2132042758068045,
      "learning_rate": 1.842279866825976e-05,
      "loss": 1.1605472564697266,
      "memory(GiB)": 74.93,
      "step": 490,
      "token_acc": 0.6365507776761208,
      "train_speed(iter/s)": 0.056851
    },
    {
      "epoch": 0.36592127148401404,
      "grad_norm": 1.2900699412115835,
      "learning_rate": 1.8391343013032505e-05,
      "loss": 1.1752688407897949,
      "memory(GiB)": 74.93,
      "step": 495,
      "token_acc": 0.6413404114134041,
      "train_speed(iter/s)": 0.056898
    },
    {
      "epoch": 0.36961744594344853,
      "grad_norm": 1.115509938975403,
      "learning_rate": 1.8359604181681703e-05,
      "loss": 1.1677565574645996,
      "memory(GiB)": 74.93,
      "step": 500,
      "token_acc": 0.635439360929557,
      "train_speed(iter/s)": 0.056967
    },
    {
      "epoch": 0.36961744594344853,
      "eval_loss": 0.7416162490844727,
      "eval_runtime": 87.8438,
      "eval_samples_per_second": 79.63,
      "eval_steps_per_second": 0.626,
      "eval_token_acc": 0.615732863603728,
      "step": 500
    },
    {
      "epoch": 0.373313620402883,
      "grad_norm": 1.1864096727600855,
      "learning_rate": 1.8327583245273004e-05,
      "loss": 1.120311164855957,
      "memory(GiB)": 74.93,
      "step": 505,
      "token_acc": 0.6247582205029013,
      "train_speed(iter/s)": 0.056337
    },
    {
      "epoch": 0.3770097948623175,
      "grad_norm": 1.1558943975448084,
      "learning_rate": 1.8295281284392036e-05,
      "loss": 1.167508888244629,
      "memory(GiB)": 74.93,
      "step": 510,
      "token_acc": 0.5796680497925312,
      "train_speed(iter/s)": 0.056408
    },
    {
      "epoch": 0.380705969321752,
      "grad_norm": 1.2905670874481943,
      "learning_rate": 1.8262699389107933e-05,
      "loss": 1.15736083984375,
      "memory(GiB)": 74.93,
      "step": 515,
      "token_acc": 0.6157240272763739,
      "train_speed(iter/s)": 0.056454
    },
    {
      "epoch": 0.3844021437811865,
      "grad_norm": 1.2748847596057926,
      "learning_rate": 1.8229838658936566e-05,
      "loss": 1.1492805480957031,
      "memory(GiB)": 74.93,
      "step": 520,
      "token_acc": 0.6105889724310777,
      "train_speed(iter/s)": 0.056519
    },
    {
      "epoch": 0.38809831824062097,
      "grad_norm": 1.1876718707954161,
      "learning_rate": 1.819670020280343e-05,
      "loss": 1.1467121124267579,
      "memory(GiB)": 74.93,
      "step": 525,
      "token_acc": 0.6113826815642458,
      "train_speed(iter/s)": 0.056588
    },
    {
      "epoch": 0.39179449270005545,
      "grad_norm": 1.2841584592867252,
      "learning_rate": 1.816328513900622e-05,
      "loss": 1.1653972625732423,
      "memory(GiB)": 74.93,
      "step": 530,
      "token_acc": 0.6273197444478248,
      "train_speed(iter/s)": 0.056639
    },
    {
      "epoch": 0.39549066715948994,
      "grad_norm": 1.243754331563731,
      "learning_rate": 1.8129594595177093e-05,
      "loss": 1.154591178894043,
      "memory(GiB)": 74.93,
      "step": 535,
      "token_acc": 0.5926477893691009,
      "train_speed(iter/s)": 0.056695
    },
    {
      "epoch": 0.3991868416189244,
      "grad_norm": 1.3245067788741383,
      "learning_rate": 1.809562970824462e-05,
      "loss": 1.157964324951172,
      "memory(GiB)": 74.93,
      "step": 540,
      "token_acc": 0.6192792394428477,
      "train_speed(iter/s)": 0.056758
    },
    {
      "epoch": 0.4028830160783589,
      "grad_norm": 1.3057962329498682,
      "learning_rate": 1.806139162439541e-05,
      "loss": 1.1371761322021485,
      "memory(GiB)": 74.93,
      "step": 545,
      "token_acc": 0.596340150699677,
      "train_speed(iter/s)": 0.056815
    },
    {
      "epoch": 0.4065791905377934,
      "grad_norm": 1.25005365154622,
      "learning_rate": 1.8026881499035437e-05,
      "loss": 1.1124300956726074,
      "memory(GiB)": 74.93,
      "step": 550,
      "token_acc": 0.6204881402543829,
      "train_speed(iter/s)": 0.056864
    },
    {
      "epoch": 0.4065791905377934,
      "eval_loss": 0.7460726499557495,
      "eval_runtime": 88.6273,
      "eval_samples_per_second": 78.926,
      "eval_steps_per_second": 0.621,
      "eval_token_acc": 0.6162869352221019,
      "step": 550
    },
    {
      "epoch": 0.4102753649972279,
      "grad_norm": 1.1926510177467409,
      "learning_rate": 1.7992100496751054e-05,
      "loss": 1.1571131706237794,
      "memory(GiB)": 74.93,
      "step": 555,
      "token_acc": 0.6311389759665622,
      "train_speed(iter/s)": 0.056299
    },
    {
      "epoch": 0.4139715394566624,
      "grad_norm": 1.1989503074947894,
      "learning_rate": 1.7957049791269684e-05,
      "loss": 1.1516962051391602,
      "memory(GiB)": 74.93,
      "step": 560,
      "token_acc": 0.5952788231269244,
      "train_speed(iter/s)": 0.056369
    },
    {
      "epoch": 0.41766771391609686,
      "grad_norm": 1.1212233051313498,
      "learning_rate": 1.792173056542021e-05,
      "loss": 1.1592437744140625,
      "memory(GiB)": 74.93,
      "step": 565,
      "token_acc": 0.5976621417797888,
      "train_speed(iter/s)": 0.056413
    },
    {
      "epoch": 0.42136388837553135,
      "grad_norm": 1.1553604640842632,
      "learning_rate": 1.7886144011093067e-05,
      "loss": 1.1524188041687011,
      "memory(GiB)": 74.93,
      "step": 570,
      "token_acc": 0.6424742268041237,
      "train_speed(iter/s)": 0.056462
    },
    {
      "epoch": 0.42506006283496583,
      "grad_norm": 1.183725532275657,
      "learning_rate": 1.7850291329200015e-05,
      "loss": 1.1416030883789063,
      "memory(GiB)": 74.93,
      "step": 575,
      "token_acc": 0.6029700196133371,
      "train_speed(iter/s)": 0.056533
    },
    {
      "epoch": 0.4287562372944003,
      "grad_norm": 1.2480769087109442,
      "learning_rate": 1.7814173729633607e-05,
      "loss": 1.164370059967041,
      "memory(GiB)": 74.93,
      "step": 580,
      "token_acc": 0.6192486281131279,
      "train_speed(iter/s)": 0.056588
    },
    {
      "epoch": 0.43245241175383475,
      "grad_norm": 1.3104680757325256,
      "learning_rate": 1.7777792431226384e-05,
      "loss": 1.119395637512207,
      "memory(GiB)": 74.93,
      "step": 585,
      "token_acc": 0.6305528922978587,
      "train_speed(iter/s)": 0.056638
    },
    {
      "epoch": 0.43614858621326924,
      "grad_norm": 1.213929814999547,
      "learning_rate": 1.7741148661709707e-05,
      "loss": 1.1547592163085938,
      "memory(GiB)": 74.93,
      "step": 590,
      "token_acc": 0.6233905579399142,
      "train_speed(iter/s)": 0.056711
    },
    {
      "epoch": 0.4398447606727037,
      "grad_norm": 1.2155093557171206,
      "learning_rate": 1.770424365767236e-05,
      "loss": 1.1199445724487305,
      "memory(GiB)": 74.93,
      "step": 595,
      "token_acc": 0.6336528221512248,
      "train_speed(iter/s)": 0.056773
    },
    {
      "epoch": 0.4435409351321382,
      "grad_norm": 1.3908702173841363,
      "learning_rate": 1.7667078664518796e-05,
      "loss": 1.157416534423828,
      "memory(GiB)": 74.93,
      "step": 600,
      "token_acc": 0.6181159420289855,
      "train_speed(iter/s)": 0.056815
    },
    {
      "epoch": 0.4435409351321382,
      "eval_loss": 0.7338850498199463,
      "eval_runtime": 85.3003,
      "eval_samples_per_second": 82.004,
      "eval_steps_per_second": 0.645,
      "eval_token_acc": 0.6175324420475716,
      "step": 600
    },
    {
      "epoch": 0.4472371095915727,
      "grad_norm": 1.022281205691788,
      "learning_rate": 1.7629654936427126e-05,
      "loss": 1.1211700439453125,
      "memory(GiB)": 74.93,
      "step": 605,
      "token_acc": 0.6267794070427057,
      "train_speed(iter/s)": 0.056289
    },
    {
      "epoch": 0.4509332840510072,
      "grad_norm": 1.1115715050120814,
      "learning_rate": 1.7591973736306774e-05,
      "loss": 1.1568084716796876,
      "memory(GiB)": 74.93,
      "step": 610,
      "token_acc": 0.6001278227524499,
      "train_speed(iter/s)": 0.056358
    },
    {
      "epoch": 0.4546294585104417,
      "grad_norm": 1.2942894072539404,
      "learning_rate": 1.755403633575589e-05,
      "loss": 1.1330131530761718,
      "memory(GiB)": 74.93,
      "step": 615,
      "token_acc": 0.6048237476808905,
      "train_speed(iter/s)": 0.056424
    },
    {
      "epoch": 0.45832563296987616,
      "grad_norm": 1.2115375753993367,
      "learning_rate": 1.7515844015018416e-05,
      "loss": 1.1604066848754884,
      "memory(GiB)": 74.93,
      "step": 620,
      "token_acc": 0.6332541567695962,
      "train_speed(iter/s)": 0.05648
    },
    {
      "epoch": 0.46202180742931065,
      "grad_norm": 1.1168616761395809,
      "learning_rate": 1.7477398062940868e-05,
      "loss": 1.1492230415344238,
      "memory(GiB)": 74.93,
      "step": 625,
      "token_acc": 0.6326703343207787,
      "train_speed(iter/s)": 0.056541
    },
    {
      "epoch": 0.46571798188874514,
      "grad_norm": 1.3080238975825687,
      "learning_rate": 1.7438699776928892e-05,
      "loss": 1.159599494934082,
      "memory(GiB)": 74.93,
      "step": 630,
      "token_acc": 0.5911352329262777,
      "train_speed(iter/s)": 0.056603
    },
    {
      "epoch": 0.4694141563481796,
      "grad_norm": 1.270157306289422,
      "learning_rate": 1.739975046290343e-05,
      "loss": 1.1172502517700196,
      "memory(GiB)": 74.93,
      "step": 635,
      "token_acc": 0.6800878477306003,
      "train_speed(iter/s)": 0.05664
    },
    {
      "epoch": 0.4731103308076141,
      "grad_norm": 1.1591581275323428,
      "learning_rate": 1.7360551435256673e-05,
      "loss": 1.1474403381347655,
      "memory(GiB)": 74.93,
      "step": 640,
      "token_acc": 0.6703857188396557,
      "train_speed(iter/s)": 0.056691
    },
    {
      "epoch": 0.4768065052670486,
      "grad_norm": 1.3849471969434006,
      "learning_rate": 1.7321104016807716e-05,
      "loss": 1.1200141906738281,
      "memory(GiB)": 74.93,
      "step": 645,
      "token_acc": 0.6204099060631939,
      "train_speed(iter/s)": 0.056741
    },
    {
      "epoch": 0.4805026797264831,
      "grad_norm": 1.2181008696775872,
      "learning_rate": 1.7281409538757886e-05,
      "loss": 1.1367115020751952,
      "memory(GiB)": 74.93,
      "step": 650,
      "token_acc": 0.6141581632653061,
      "train_speed(iter/s)": 0.056787
    },
    {
      "epoch": 0.4805026797264831,
      "eval_loss": 0.7338098287582397,
      "eval_runtime": 86.3351,
      "eval_samples_per_second": 81.022,
      "eval_steps_per_second": 0.637,
      "eval_token_acc": 0.618567863384408,
      "step": 650
    },
    {
      "epoch": 0.48419885418591757,
      "grad_norm": 1.2381127917004506,
      "learning_rate": 1.7241469340645856e-05,
      "loss": 1.1498327255249023,
      "memory(GiB)": 74.93,
      "step": 655,
      "token_acc": 0.6240238388820386,
      "train_speed(iter/s)": 0.056305
    },
    {
      "epoch": 0.48789502864535206,
      "grad_norm": 1.3545670040018443,
      "learning_rate": 1.720128477030241e-05,
      "loss": 1.123112392425537,
      "memory(GiB)": 74.93,
      "step": 660,
      "token_acc": 0.6101917520357236,
      "train_speed(iter/s)": 0.05635
    },
    {
      "epoch": 0.49159120310478654,
      "grad_norm": 1.2698188744774948,
      "learning_rate": 1.716085718380498e-05,
      "loss": 1.1386995315551758,
      "memory(GiB)": 74.93,
      "step": 665,
      "token_acc": 0.6005629477993859,
      "train_speed(iter/s)": 0.056398
    },
    {
      "epoch": 0.49528737756422103,
      "grad_norm": 1.4609798611237281,
      "learning_rate": 1.7120187945431874e-05,
      "loss": 1.1037940979003906,
      "memory(GiB)": 74.93,
      "step": 670,
      "token_acc": 0.6407727085902178,
      "train_speed(iter/s)": 0.056444
    },
    {
      "epoch": 0.4989835520236555,
      "grad_norm": 1.1805190661164426,
      "learning_rate": 1.707927842761623e-05,
      "loss": 1.1232402801513672,
      "memory(GiB)": 74.93,
      "step": 675,
      "token_acc": 0.5811437403400309,
      "train_speed(iter/s)": 0.05646
    },
    {
      "epoch": 0.50267972648309,
      "grad_norm": 1.1558010845800675,
      "learning_rate": 1.7038130010899716e-05,
      "loss": 1.1340635299682618,
      "memory(GiB)": 74.93,
      "step": 680,
      "token_acc": 0.6523545706371191,
      "train_speed(iter/s)": 0.056504
    },
    {
      "epoch": 0.5063759009425245,
      "grad_norm": 1.1790896957784056,
      "learning_rate": 1.6996744083885938e-05,
      "loss": 1.1378223419189453,
      "memory(GiB)": 74.93,
      "step": 685,
      "token_acc": 0.6573009791400596,
      "train_speed(iter/s)": 0.056546
    },
    {
      "epoch": 0.510072075401959,
      "grad_norm": 1.2335317128319008,
      "learning_rate": 1.695512204319357e-05,
      "loss": 1.1394284248352051,
      "memory(GiB)": 74.93,
      "step": 690,
      "token_acc": 0.6082870568133276,
      "train_speed(iter/s)": 0.056586
    },
    {
      "epoch": 0.5137682498613935,
      "grad_norm": 0.9893255166681467,
      "learning_rate": 1.6913265293409235e-05,
      "loss": 1.1198680877685547,
      "memory(GiB)": 74.93,
      "step": 695,
      "token_acc": 0.547270955165692,
      "train_speed(iter/s)": 0.05664
    },
    {
      "epoch": 0.517464424320828,
      "grad_norm": 1.1351076610632471,
      "learning_rate": 1.68711752470401e-05,
      "loss": 1.1366339683532716,
      "memory(GiB)": 74.93,
      "step": 700,
      "token_acc": 0.6295369211514393,
      "train_speed(iter/s)": 0.056675
    },
    {
      "epoch": 0.517464424320828,
      "eval_loss": 0.7255228757858276,
      "eval_runtime": 89.5144,
      "eval_samples_per_second": 78.144,
      "eval_steps_per_second": 0.614,
      "eval_token_acc": 0.6190699907885594,
      "step": 700
    },
    {
      "epoch": 0.5211605987802624,
      "grad_norm": 1.0862208515121348,
      "learning_rate": 1.682885332446621e-05,
      "loss": 1.1369894981384276,
      "memory(GiB)": 74.93,
      "step": 705,
      "token_acc": 0.6288204532248692,
      "train_speed(iter/s)": 0.056212
    },
    {
      "epoch": 0.5248567732396969,
      "grad_norm": 1.1660653361907225,
      "learning_rate": 1.6786300953892563e-05,
      "loss": 1.1410274505615234,
      "memory(GiB)": 74.93,
      "step": 710,
      "token_acc": 0.6100605143721634,
      "train_speed(iter/s)": 0.056263
    },
    {
      "epoch": 0.5285529476991314,
      "grad_norm": 1.0896922974940084,
      "learning_rate": 1.674351957130089e-05,
      "loss": 1.1174249649047852,
      "memory(GiB)": 74.93,
      "step": 715,
      "token_acc": 0.6420308483290489,
      "train_speed(iter/s)": 0.056309
    },
    {
      "epoch": 0.5322491221585659,
      "grad_norm": 1.152348085956414,
      "learning_rate": 1.6700510620401223e-05,
      "loss": 1.1088247299194336,
      "memory(GiB)": 74.93,
      "step": 720,
      "token_acc": 0.6403995560488346,
      "train_speed(iter/s)": 0.056355
    },
    {
      "epoch": 0.5359452966180004,
      "grad_norm": 1.1236142627513106,
      "learning_rate": 1.6657275552583172e-05,
      "loss": 1.137843418121338,
      "memory(GiB)": 74.93,
      "step": 725,
      "token_acc": 0.5981665393430099,
      "train_speed(iter/s)": 0.056406
    },
    {
      "epoch": 0.5396414710774349,
      "grad_norm": 1.0869362324396392,
      "learning_rate": 1.6613815826866923e-05,
      "loss": 1.1183334350585938,
      "memory(GiB)": 74.93,
      "step": 730,
      "token_acc": 0.6076433121019108,
      "train_speed(iter/s)": 0.056454
    },
    {
      "epoch": 0.5433376455368694,
      "grad_norm": 1.0408539682832916,
      "learning_rate": 1.6570132909854027e-05,
      "loss": 1.1498143196105957,
      "memory(GiB)": 74.93,
      "step": 735,
      "token_acc": 0.6524312896405919,
      "train_speed(iter/s)": 0.0565
    },
    {
      "epoch": 0.5470338199963038,
      "grad_norm": 1.223295875198057,
      "learning_rate": 1.6526228275677892e-05,
      "loss": 1.091654109954834,
      "memory(GiB)": 74.93,
      "step": 740,
      "token_acc": 0.6982872200263505,
      "train_speed(iter/s)": 0.056544
    },
    {
      "epoch": 0.5507299944557383,
      "grad_norm": 1.1558442201312176,
      "learning_rate": 1.6482103405954056e-05,
      "loss": 1.1205904006958007,
      "memory(GiB)": 74.93,
      "step": 745,
      "token_acc": 0.6377204884667571,
      "train_speed(iter/s)": 0.056579
    },
    {
      "epoch": 0.5544261689151728,
      "grad_norm": 1.2784643735837162,
      "learning_rate": 1.6437759789730154e-05,
      "loss": 1.1237329483032226,
      "memory(GiB)": 74.93,
      "step": 750,
      "token_acc": 0.6141374837872893,
      "train_speed(iter/s)": 0.056631
    },
    {
      "epoch": 0.5544261689151728,
      "eval_loss": 0.7271792888641357,
      "eval_runtime": 87.6966,
      "eval_samples_per_second": 79.764,
      "eval_steps_per_second": 0.627,
      "eval_token_acc": 0.6196194451434468,
      "step": 750
    },
    {
      "epoch": 0.5581223433746073,
      "grad_norm": 1.2055849293387977,
      "learning_rate": 1.6393198923435707e-05,
      "loss": 1.1234511375427245,
      "memory(GiB)": 74.93,
      "step": 755,
      "token_acc": 0.6244901356863398,
      "train_speed(iter/s)": 0.056217
    },
    {
      "epoch": 0.5618185178340418,
      "grad_norm": 1.1362509527796705,
      "learning_rate": 1.63484223108316e-05,
      "loss": 1.125691795349121,
      "memory(GiB)": 74.93,
      "step": 760,
      "token_acc": 0.6037473976405274,
      "train_speed(iter/s)": 0.05626
    },
    {
      "epoch": 0.5655146922934763,
      "grad_norm": 1.123275540757232,
      "learning_rate": 1.6303431462959327e-05,
      "loss": 1.1341413497924804,
      "memory(GiB)": 74.93,
      "step": 765,
      "token_acc": 0.6085106382978723,
      "train_speed(iter/s)": 0.056308
    },
    {
      "epoch": 0.5692108667529108,
      "grad_norm": 1.015989051360902,
      "learning_rate": 1.6258227898090037e-05,
      "loss": 1.1203922271728515,
      "memory(GiB)": 74.93,
      "step": 770,
      "token_acc": 0.601472134595163,
      "train_speed(iter/s)": 0.056355
    },
    {
      "epoch": 0.5729070412123453,
      "grad_norm": 1.189393051036189,
      "learning_rate": 1.6212813141673254e-05,
      "loss": 1.1124958038330077,
      "memory(GiB)": 74.93,
      "step": 775,
      "token_acc": 0.6260790549750114,
      "train_speed(iter/s)": 0.056399
    },
    {
      "epoch": 0.5766032156717797,
      "grad_norm": 1.1850051513280322,
      "learning_rate": 1.6167188726285433e-05,
      "loss": 1.114617919921875,
      "memory(GiB)": 74.93,
      "step": 780,
      "token_acc": 0.5942992874109264,
      "train_speed(iter/s)": 0.056434
    },
    {
      "epoch": 0.5802993901312142,
      "grad_norm": 1.0681729567626044,
      "learning_rate": 1.6121356191578213e-05,
      "loss": 1.1280495643615722,
      "memory(GiB)": 74.93,
      "step": 785,
      "token_acc": 0.705685618729097,
      "train_speed(iter/s)": 0.056481
    },
    {
      "epoch": 0.5839955645906487,
      "grad_norm": 1.2860183936318812,
      "learning_rate": 1.607531708422649e-05,
      "loss": 1.1495230674743653,
      "memory(GiB)": 74.93,
      "step": 790,
      "token_acc": 0.5793650793650794,
      "train_speed(iter/s)": 0.056516
    },
    {
      "epoch": 0.5876917390500832,
      "grad_norm": 1.0862282113312,
      "learning_rate": 1.6029072957876196e-05,
      "loss": 1.1175559997558593,
      "memory(GiB)": 74.93,
      "step": 795,
      "token_acc": 0.6226415094339622,
      "train_speed(iter/s)": 0.056552
    },
    {
      "epoch": 0.5913879135095177,
      "grad_norm": 1.1331799452220792,
      "learning_rate": 1.5982625373091877e-05,
      "loss": 1.0859192848205566,
      "memory(GiB)": 74.93,
      "step": 800,
      "token_acc": 0.597226235192141,
      "train_speed(iter/s)": 0.056592
    },
    {
      "epoch": 0.5913879135095177,
      "eval_loss": 0.7157755494117737,
      "eval_runtime": 88.6481,
      "eval_samples_per_second": 78.907,
      "eval_steps_per_second": 0.62,
      "eval_token_acc": 0.6206202370041347,
      "step": 800
    },
    {
      "epoch": 0.5950840879689522,
      "grad_norm": 1.108802407981979,
      "learning_rate": 1.593597589730404e-05,
      "loss": 1.147084617614746,
      "memory(GiB)": 74.93,
      "step": 805,
      "token_acc": 0.6168687401159726,
      "train_speed(iter/s)": 0.056208
    },
    {
      "epoch": 0.5987802624283867,
      "grad_norm": 0.9423602415844418,
      "learning_rate": 1.5889126104756245e-05,
      "loss": 1.1448484420776368,
      "memory(GiB)": 74.93,
      "step": 810,
      "token_acc": 0.5890688259109311,
      "train_speed(iter/s)": 0.056247
    },
    {
      "epoch": 0.6024764368878212,
      "grad_norm": 1.0816637490179923,
      "learning_rate": 1.5842077576451988e-05,
      "loss": 1.1083642959594726,
      "memory(GiB)": 74.93,
      "step": 815,
      "token_acc": 0.6413487738419619,
      "train_speed(iter/s)": 0.056285
    },
    {
      "epoch": 0.6061726113472556,
      "grad_norm": 1.135732608334688,
      "learning_rate": 1.5794831900101352e-05,
      "loss": 1.1130756378173827,
      "memory(GiB)": 74.93,
      "step": 820,
      "token_acc": 0.620497803806735,
      "train_speed(iter/s)": 0.056338
    },
    {
      "epoch": 0.6098687858066901,
      "grad_norm": 1.0156136928889437,
      "learning_rate": 1.5747390670067412e-05,
      "loss": 1.1423524856567382,
      "memory(GiB)": 74.93,
      "step": 825,
      "token_acc": 0.6086384564788424,
      "train_speed(iter/s)": 0.056378
    },
    {
      "epoch": 0.6135649602661246,
      "grad_norm": 1.233089498837372,
      "learning_rate": 1.5699755487312446e-05,
      "loss": 1.1060791969299317,
      "memory(GiB)": 74.93,
      "step": 830,
      "token_acc": 0.6365546218487395,
      "train_speed(iter/s)": 0.056416
    },
    {
      "epoch": 0.6172611347255591,
      "grad_norm": 1.1731325122439864,
      "learning_rate": 1.56519279593439e-05,
      "loss": 1.0863089561462402,
      "memory(GiB)": 74.93,
      "step": 835,
      "token_acc": 0.6160830090791181,
      "train_speed(iter/s)": 0.056451
    },
    {
      "epoch": 0.6209573091849935,
      "grad_norm": 1.1022360374731142,
      "learning_rate": 1.560390970016015e-05,
      "loss": 1.1188045501708985,
      "memory(GiB)": 74.93,
      "step": 840,
      "token_acc": 0.5851091817942646,
      "train_speed(iter/s)": 0.05649
    },
    {
      "epoch": 0.624653483644428,
      "grad_norm": 1.1163862966216507,
      "learning_rate": 1.5555702330196024e-05,
      "loss": 1.1088319778442384,
      "memory(GiB)": 74.93,
      "step": 845,
      "token_acc": 0.6556741028128031,
      "train_speed(iter/s)": 0.056533
    },
    {
      "epoch": 0.6283496581038625,
      "grad_norm": 1.1694067702393547,
      "learning_rate": 1.5507307476268126e-05,
      "loss": 1.1475400924682617,
      "memory(GiB)": 74.93,
      "step": 850,
      "token_acc": 0.6055389221556886,
      "train_speed(iter/s)": 0.056569
    },
    {
      "epoch": 0.6283496581038625,
      "eval_loss": 0.7119885683059692,
      "eval_runtime": 87.1877,
      "eval_samples_per_second": 80.229,
      "eval_steps_per_second": 0.631,
      "eval_token_acc": 0.621244721890677,
      "step": 850
    },
    {
      "epoch": 0.6320458325632969,
      "grad_norm": 1.1865540340685679,
      "learning_rate": 1.5458726771519946e-05,
      "loss": 1.135090446472168,
      "memory(GiB)": 74.93,
      "step": 855,
      "token_acc": 0.6295323704676296,
      "train_speed(iter/s)": 0.056205
    },
    {
      "epoch": 0.6357420070227314,
      "grad_norm": 0.9908463678598523,
      "learning_rate": 1.5409961855366718e-05,
      "loss": 1.110205078125,
      "memory(GiB)": 74.93,
      "step": 860,
      "token_acc": 0.6002865329512894,
      "train_speed(iter/s)": 0.056248
    },
    {
      "epoch": 0.6394381814821659,
      "grad_norm": 1.1394579815051238,
      "learning_rate": 1.5361014373440125e-05,
      "loss": 1.131001091003418,
      "memory(GiB)": 74.93,
      "step": 865,
      "token_acc": 0.6846254927726675,
      "train_speed(iter/s)": 0.056284
    },
    {
      "epoch": 0.6431343559416004,
      "grad_norm": 1.2277455515675866,
      "learning_rate": 1.5311885977532756e-05,
      "loss": 1.1217898368835448,
      "memory(GiB)": 74.93,
      "step": 870,
      "token_acc": 0.5979188900747066,
      "train_speed(iter/s)": 0.056322
    },
    {
      "epoch": 0.6468305304010349,
      "grad_norm": 1.163464153725413,
      "learning_rate": 1.5262578325542366e-05,
      "loss": 1.096768569946289,
      "memory(GiB)": 74.93,
      "step": 875,
      "token_acc": 0.6008762322015334,
      "train_speed(iter/s)": 0.056371
    },
    {
      "epoch": 0.6505267048604694,
      "grad_norm": 1.0920480508914876,
      "learning_rate": 1.521309308141592e-05,
      "loss": 1.1257577896118165,
      "memory(GiB)": 74.93,
      "step": 880,
      "token_acc": 0.6577503429355281,
      "train_speed(iter/s)": 0.056412
    },
    {
      "epoch": 0.6542228793199039,
      "grad_norm": 1.1338180174479229,
      "learning_rate": 1.5163431915093443e-05,
      "loss": 1.1262746810913087,
      "memory(GiB)": 74.93,
      "step": 885,
      "token_acc": 0.6306549628629304,
      "train_speed(iter/s)": 0.056447
    },
    {
      "epoch": 0.6579190537793383,
      "grad_norm": 1.295043254051827,
      "learning_rate": 1.511359650245168e-05,
      "loss": 1.1621430397033692,
      "memory(GiB)": 74.93,
      "step": 890,
      "token_acc": 0.6065481230595541,
      "train_speed(iter/s)": 0.056485
    },
    {
      "epoch": 0.6616152282387728,
      "grad_norm": 1.1985531473315896,
      "learning_rate": 1.506358852524752e-05,
      "loss": 1.1280719757080078,
      "memory(GiB)": 74.93,
      "step": 895,
      "token_acc": 0.6419322709163346,
      "train_speed(iter/s)": 0.056523
    },
    {
      "epoch": 0.6653114026982073,
      "grad_norm": 1.0909942367098966,
      "learning_rate": 1.5013409671061267e-05,
      "loss": 1.125238800048828,
      "memory(GiB)": 74.93,
      "step": 900,
      "token_acc": 0.599232245681382,
      "train_speed(iter/s)": 0.056559
    },
    {
      "epoch": 0.6653114026982073,
      "eval_loss": 0.7135615348815918,
      "eval_runtime": 87.1706,
      "eval_samples_per_second": 80.245,
      "eval_steps_per_second": 0.631,
      "eval_token_acc": 0.6218034107725374,
      "step": 900
    },
    {
      "epoch": 0.6690075771576418,
      "grad_norm": 1.1857146226848603,
      "learning_rate": 1.4963061633239665e-05,
      "loss": 1.1094846725463867,
      "memory(GiB)": 74.93,
      "step": 905,
      "token_acc": 0.6268454980245374,
      "train_speed(iter/s)": 0.056203
    },
    {
      "epoch": 0.6727037516170763,
      "grad_norm": 0.9662742881806529,
      "learning_rate": 1.4912546110838775e-05,
      "loss": 1.1187602996826171,
      "memory(GiB)": 74.93,
      "step": 910,
      "token_acc": 0.6091391268869849,
      "train_speed(iter/s)": 0.056241
    },
    {
      "epoch": 0.6763999260765108,
      "grad_norm": 1.0584302453369157,
      "learning_rate": 1.4861864808566624e-05,
      "loss": 1.101078701019287,
      "memory(GiB)": 74.93,
      "step": 915,
      "token_acc": 0.5681592039800994,
      "train_speed(iter/s)": 0.056284
    },
    {
      "epoch": 0.6800961005359453,
      "grad_norm": 1.1605002634031412,
      "learning_rate": 1.4811019436725684e-05,
      "loss": 1.146175003051758,
      "memory(GiB)": 74.93,
      "step": 920,
      "token_acc": 0.63498674744415,
      "train_speed(iter/s)": 0.056321
    },
    {
      "epoch": 0.6837922749953798,
      "grad_norm": 1.0137203677446553,
      "learning_rate": 1.4760011711155164e-05,
      "loss": 1.1349545478820802,
      "memory(GiB)": 74.93,
      "step": 925,
      "token_acc": 0.6199203187250996,
      "train_speed(iter/s)": 0.056361
    },
    {
      "epoch": 0.6874884494548142,
      "grad_norm": 1.183534701619676,
      "learning_rate": 1.4708843353173084e-05,
      "loss": 1.0977567672729491,
      "memory(GiB)": 74.93,
      "step": 930,
      "token_acc": 0.6462346760070052,
      "train_speed(iter/s)": 0.056403
    },
    {
      "epoch": 0.6911846239142487,
      "grad_norm": 1.1575204207505418,
      "learning_rate": 1.4657516089518211e-05,
      "loss": 1.1138565063476562,
      "memory(GiB)": 74.93,
      "step": 935,
      "token_acc": 0.6146223888591323,
      "train_speed(iter/s)": 0.056436
    },
    {
      "epoch": 0.6948807983736832,
      "grad_norm": 1.1418054839263487,
      "learning_rate": 1.4606031652291772e-05,
      "loss": 1.1173955917358398,
      "memory(GiB)": 74.93,
      "step": 940,
      "token_acc": 0.6329457364341086,
      "train_speed(iter/s)": 0.056463
    },
    {
      "epoch": 0.6985769728331177,
      "grad_norm": 1.0817591968148002,
      "learning_rate": 1.4554391778899016e-05,
      "loss": 1.0996898651123046,
      "memory(GiB)": 74.93,
      "step": 945,
      "token_acc": 0.6234177215189873,
      "train_speed(iter/s)": 0.056501
    },
    {
      "epoch": 0.7022731472925522,
      "grad_norm": 1.072385635877129,
      "learning_rate": 1.4502598211990566e-05,
      "loss": 1.1042339324951171,
      "memory(GiB)": 74.93,
      "step": 950,
      "token_acc": 0.6252068394925537,
      "train_speed(iter/s)": 0.056535
    },
    {
      "epoch": 0.7022731472925522,
      "eval_loss": 0.7057685256004333,
      "eval_runtime": 86.3988,
      "eval_samples_per_second": 80.962,
      "eval_steps_per_second": 0.637,
      "eval_token_acc": 0.62234940217981,
      "step": 950
    },
    {
      "epoch": 0.7059693217519867,
      "grad_norm": 0.9961167453619919,
      "learning_rate": 1.4450652699403626e-05,
      "loss": 1.1219955444335938,
      "memory(GiB)": 74.93,
      "step": 955,
      "token_acc": 0.6370088719898606,
      "train_speed(iter/s)": 0.056207
    },
    {
      "epoch": 0.7096654962114212,
      "grad_norm": 1.061517038375997,
      "learning_rate": 1.4398556994102996e-05,
      "loss": 1.1110521316528321,
      "memory(GiB)": 74.93,
      "step": 960,
      "token_acc": 0.592031029619182,
      "train_speed(iter/s)": 0.056234
    },
    {
      "epoch": 0.7133616706708557,
      "grad_norm": 1.0852009579100936,
      "learning_rate": 1.43463128541219e-05,
      "loss": 1.096040916442871,
      "memory(GiB)": 74.93,
      "step": 965,
      "token_acc": 0.6075691411935954,
      "train_speed(iter/s)": 0.056271
    },
    {
      "epoch": 0.7170578451302901,
      "grad_norm": 0.9770309231987666,
      "learning_rate": 1.4293922042502688e-05,
      "loss": 1.1151371002197266,
      "memory(GiB)": 74.93,
      "step": 970,
      "token_acc": 0.6337025316455697,
      "train_speed(iter/s)": 0.056306
    },
    {
      "epoch": 0.7207540195897246,
      "grad_norm": 1.1847784978202587,
      "learning_rate": 1.4241386327237312e-05,
      "loss": 1.1008172035217285,
      "memory(GiB)": 74.93,
      "step": 975,
      "token_acc": 0.6730158730158731,
      "train_speed(iter/s)": 0.05634
    },
    {
      "epoch": 0.7244501940491591,
      "grad_norm": 1.143052071292951,
      "learning_rate": 1.4188707481207677e-05,
      "loss": 1.083547878265381,
      "memory(GiB)": 74.93,
      "step": 980,
      "token_acc": 0.6250749850029994,
      "train_speed(iter/s)": 0.056381
    },
    {
      "epoch": 0.7281463685085936,
      "grad_norm": 1.0778857332369403,
      "learning_rate": 1.4135887282125815e-05,
      "loss": 1.1583375930786133,
      "memory(GiB)": 74.93,
      "step": 985,
      "token_acc": 0.6521739130434783,
      "train_speed(iter/s)": 0.056416
    },
    {
      "epoch": 0.7318425429680281,
      "grad_norm": 1.1338338646435362,
      "learning_rate": 1.4082927512473884e-05,
      "loss": 1.0937719345092773,
      "memory(GiB)": 74.93,
      "step": 990,
      "token_acc": 0.6181945090739879,
      "train_speed(iter/s)": 0.056448
    },
    {
      "epoch": 0.7355387174274626,
      "grad_norm": 1.085287732158945,
      "learning_rate": 1.4029829959444023e-05,
      "loss": 1.1042760848999023,
      "memory(GiB)": 74.93,
      "step": 995,
      "token_acc": 0.600328947368421,
      "train_speed(iter/s)": 0.056486
    },
    {
      "epoch": 0.7392348918868971,
      "grad_norm": 1.0122719878977164,
      "learning_rate": 1.3976596414878044e-05,
      "loss": 1.1351425170898437,
      "memory(GiB)": 74.93,
      "step": 1000,
      "token_acc": 0.8054474708171206,
      "train_speed(iter/s)": 0.056528
    },
    {
      "epoch": 0.7392348918868971,
      "eval_loss": 0.7091466784477234,
      "eval_runtime": 87.3344,
      "eval_samples_per_second": 80.094,
      "eval_steps_per_second": 0.63,
      "eval_token_acc": 0.622888467691853,
      "step": 1000
    },
    {
      "epoch": 0.7429310663463315,
      "grad_norm": 1.1226018601296495,
      "learning_rate": 1.392322867520695e-05,
      "loss": 1.088837242126465,
      "memory(GiB)": 74.93,
      "step": 1005,
      "token_acc": 0.6355053191489362,
      "train_speed(iter/s)": 0.056225
    },
    {
      "epoch": 0.746627240805766,
      "grad_norm": 1.021565181098161,
      "learning_rate": 1.3869728541390333e-05,
      "loss": 1.1350063323974608,
      "memory(GiB)": 74.93,
      "step": 1010,
      "token_acc": 0.6212718064153067,
      "train_speed(iter/s)": 0.056258
    },
    {
      "epoch": 0.7503234152652005,
      "grad_norm": 1.2612224567220394,
      "learning_rate": 1.3816097818855575e-05,
      "loss": 1.1172313690185547,
      "memory(GiB)": 74.93,
      "step": 1015,
      "token_acc": 0.5992337164750958,
      "train_speed(iter/s)": 0.056287
    },
    {
      "epoch": 0.754019589724635,
      "grad_norm": 1.1387539267847184,
      "learning_rate": 1.3762338317436948e-05,
      "loss": 1.1132306098937987,
      "memory(GiB)": 74.93,
      "step": 1020,
      "token_acc": 0.6117302052785923,
      "train_speed(iter/s)": 0.056327
    },
    {
      "epoch": 0.7577157641840695,
      "grad_norm": 1.358536367466617,
      "learning_rate": 1.3708451851314511e-05,
      "loss": 1.1005128860473632,
      "memory(GiB)": 74.93,
      "step": 1025,
      "token_acc": 0.6442417331812998,
      "train_speed(iter/s)": 0.05636
    },
    {
      "epoch": 0.761411938643504,
      "grad_norm": 1.0707791903089035,
      "learning_rate": 1.3654440238952913e-05,
      "loss": 1.0914304733276368,
      "memory(GiB)": 74.93,
      "step": 1030,
      "token_acc": 0.6064616582327754,
      "train_speed(iter/s)": 0.056391
    },
    {
      "epoch": 0.7651081131029385,
      "grad_norm": 1.116060507051338,
      "learning_rate": 1.3600305303040007e-05,
      "loss": 1.1009283065795898,
      "memory(GiB)": 74.93,
      "step": 1035,
      "token_acc": 0.6307870370370371,
      "train_speed(iter/s)": 0.056425
    },
    {
      "epoch": 0.768804287562373,
      "grad_norm": 1.1278348104888696,
      "learning_rate": 1.3546048870425356e-05,
      "loss": 1.1028734207153321,
      "memory(GiB)": 74.93,
      "step": 1040,
      "token_acc": 0.5868608195055875,
      "train_speed(iter/s)": 0.056459
    },
    {
      "epoch": 0.7725004620218074,
      "grad_norm": 1.1153722062693998,
      "learning_rate": 1.349167277205858e-05,
      "loss": 1.124934768676758,
      "memory(GiB)": 74.93,
      "step": 1045,
      "token_acc": 0.6122199592668024,
      "train_speed(iter/s)": 0.056492
    },
    {
      "epoch": 0.7761966364812419,
      "grad_norm": 1.164884012561426,
      "learning_rate": 1.3437178842927554e-05,
      "loss": 1.1385189056396485,
      "memory(GiB)": 74.93,
      "step": 1050,
      "token_acc": 0.6258808456117874,
      "train_speed(iter/s)": 0.056526
    },
    {
      "epoch": 0.7761966364812419,
      "eval_loss": 0.7029861211776733,
      "eval_runtime": 88.4673,
      "eval_samples_per_second": 79.069,
      "eval_steps_per_second": 0.622,
      "eval_token_acc": 0.623123948129662,
      "step": 1050
    },
    {
      "epoch": 0.7798928109406764,
      "grad_norm": 1.3055581766553261,
      "learning_rate": 1.338256892199651e-05,
      "loss": 1.1020261764526367,
      "memory(GiB)": 74.93,
      "step": 1055,
      "token_acc": 0.6311363636363636,
      "train_speed(iter/s)": 0.056221
    },
    {
      "epoch": 0.7835889854001109,
      "grad_norm": 1.0395384668146148,
      "learning_rate": 1.3327844852143956e-05,
      "loss": 1.148073959350586,
      "memory(GiB)": 74.93,
      "step": 1060,
      "token_acc": 0.604885993485342,
      "train_speed(iter/s)": 0.05626
    },
    {
      "epoch": 0.7872851598595454,
      "grad_norm": 1.1665752727714136,
      "learning_rate": 1.3273008480100495e-05,
      "loss": 1.0979449272155761,
      "memory(GiB)": 74.93,
      "step": 1065,
      "token_acc": 0.6049382716049383,
      "train_speed(iter/s)": 0.05629
    },
    {
      "epoch": 0.7909813343189799,
      "grad_norm": 1.041985717329155,
      "learning_rate": 1.3218061656386517e-05,
      "loss": 1.1317058563232423,
      "memory(GiB)": 74.93,
      "step": 1070,
      "token_acc": 0.6433460076045627,
      "train_speed(iter/s)": 0.056314
    },
    {
      "epoch": 0.7946775087784144,
      "grad_norm": 1.0369279649431482,
      "learning_rate": 1.316300623524972e-05,
      "loss": 1.1089330673217774,
      "memory(GiB)": 74.93,
      "step": 1075,
      "token_acc": 0.6382868937048504,
      "train_speed(iter/s)": 0.056354
    },
    {
      "epoch": 0.7983736832378489,
      "grad_norm": 1.1949441156399458,
      "learning_rate": 1.3107844074602566e-05,
      "loss": 1.0892942428588868,
      "memory(GiB)": 74.93,
      "step": 1080,
      "token_acc": 0.6408912188728703,
      "train_speed(iter/s)": 0.056386
    },
    {
      "epoch": 0.8020698576972833,
      "grad_norm": 1.0363420805429473,
      "learning_rate": 1.305257703595957e-05,
      "loss": 1.0744206428527832,
      "memory(GiB)": 74.93,
      "step": 1085,
      "token_acc": 0.6147540983606558,
      "train_speed(iter/s)": 0.056414
    },
    {
      "epoch": 0.8057660321567178,
      "grad_norm": 0.9805753007460783,
      "learning_rate": 1.2997206984374486e-05,
      "loss": 1.1048744201660157,
      "memory(GiB)": 74.93,
      "step": 1090,
      "token_acc": 0.6329463792150359,
      "train_speed(iter/s)": 0.056452
    },
    {
      "epoch": 0.8094622066161523,
      "grad_norm": 1.078880274058704,
      "learning_rate": 1.2941735788377356e-05,
      "loss": 1.0897531509399414,
      "memory(GiB)": 74.93,
      "step": 1095,
      "token_acc": 0.6396155899626268,
      "train_speed(iter/s)": 0.056484
    },
    {
      "epoch": 0.8131583810755868,
      "grad_norm": 1.083885052316346,
      "learning_rate": 1.2886165319911474e-05,
      "loss": 1.1432035446166993,
      "memory(GiB)": 74.93,
      "step": 1100,
      "token_acc": 0.5973259929217459,
      "train_speed(iter/s)": 0.056505
    },
    {
      "epoch": 0.8131583810755868,
      "eval_loss": 0.6945818662643433,
      "eval_runtime": 86.4586,
      "eval_samples_per_second": 80.906,
      "eval_steps_per_second": 0.636,
      "eval_token_acc": 0.6239354321874054,
      "step": 1100
    },
    {
      "epoch": 0.8168545555350213,
      "grad_norm": 1.1507994138444235,
      "learning_rate": 1.2830497454270206e-05,
      "loss": 1.1136839866638184,
      "memory(GiB)": 74.93,
      "step": 1105,
      "token_acc": 0.6371170793117918,
      "train_speed(iter/s)": 0.05622
    },
    {
      "epoch": 0.8205507299944558,
      "grad_norm": 1.0133515901515742,
      "learning_rate": 1.2774734070033692e-05,
      "loss": 1.1166929244995116,
      "memory(GiB)": 74.93,
      "step": 1110,
      "token_acc": 0.6103855721393034,
      "train_speed(iter/s)": 0.056253
    },
    {
      "epoch": 0.8242469044538903,
      "grad_norm": 1.1857531032231587,
      "learning_rate": 1.2718877049005477e-05,
      "loss": 1.1120613098144532,
      "memory(GiB)": 74.93,
      "step": 1115,
      "token_acc": 0.6248982912937348,
      "train_speed(iter/s)": 0.056279
    },
    {
      "epoch": 0.8279430789133247,
      "grad_norm": 1.0147593247560383,
      "learning_rate": 1.2662928276148985e-05,
      "loss": 1.0828424453735352,
      "memory(GiB)": 74.93,
      "step": 1120,
      "token_acc": 0.6065897858319604,
      "train_speed(iter/s)": 0.056309
    },
    {
      "epoch": 0.8316392533727592,
      "grad_norm": 1.0535067736037584,
      "learning_rate": 1.2606889639523925e-05,
      "loss": 1.082409381866455,
      "memory(GiB)": 74.93,
      "step": 1125,
      "token_acc": 0.6383859286083807,
      "train_speed(iter/s)": 0.056339
    },
    {
      "epoch": 0.8353354278321937,
      "grad_norm": 1.090903289476391,
      "learning_rate": 1.255076303022256e-05,
      "loss": 1.1306575775146483,
      "memory(GiB)": 74.93,
      "step": 1130,
      "token_acc": 0.6113028472821398,
      "train_speed(iter/s)": 0.056373
    },
    {
      "epoch": 0.8390316022916282,
      "grad_norm": 1.1602057234017449,
      "learning_rate": 1.2494550342305906e-05,
      "loss": 1.1157353401184082,
      "memory(GiB)": 74.93,
      "step": 1135,
      "token_acc": 0.629865985960434,
      "train_speed(iter/s)": 0.0564
    },
    {
      "epoch": 0.8427277767510627,
      "grad_norm": 1.032443656861064,
      "learning_rate": 1.2438253472739805e-05,
      "loss": 1.0929494857788087,
      "memory(GiB)": 74.93,
      "step": 1140,
      "token_acc": 0.6280344557556774,
      "train_speed(iter/s)": 0.056434
    },
    {
      "epoch": 0.8464239512104972,
      "grad_norm": 1.122025726444444,
      "learning_rate": 1.2381874321330912e-05,
      "loss": 1.1178958892822266,
      "memory(GiB)": 74.93,
      "step": 1145,
      "token_acc": 0.6517412935323383,
      "train_speed(iter/s)": 0.056468
    },
    {
      "epoch": 0.8501201256699317,
      "grad_norm": 1.0829851308141574,
      "learning_rate": 1.2325414790662578e-05,
      "loss": 1.0894483566284179,
      "memory(GiB)": 74.93,
      "step": 1150,
      "token_acc": 0.6569058077110785,
      "train_speed(iter/s)": 0.05649
    },
    {
      "epoch": 0.8501201256699317,
      "eval_loss": 0.6932370066642761,
      "eval_runtime": 86.0146,
      "eval_samples_per_second": 81.323,
      "eval_steps_per_second": 0.639,
      "eval_token_acc": 0.6245899292866097,
      "step": 1150
    },
    {
      "epoch": 0.8538163001293662,
      "grad_norm": 1.3861087034460704,
      "learning_rate": 1.2268876786030654e-05,
      "loss": 1.1001951217651367,
      "memory(GiB)": 74.93,
      "step": 1155,
      "token_acc": 0.630185845691759,
      "train_speed(iter/s)": 0.056209
    },
    {
      "epoch": 0.8575124745888006,
      "grad_norm": 1.1867682331739955,
      "learning_rate": 1.2212262215379199e-05,
      "loss": 1.1211355209350586,
      "memory(GiB)": 74.93,
      "step": 1160,
      "token_acc": 0.6551724137931034,
      "train_speed(iter/s)": 0.056235
    },
    {
      "epoch": 0.8612086490482351,
      "grad_norm": 1.0901861719096644,
      "learning_rate": 1.215557298923607e-05,
      "loss": 1.0956010818481445,
      "memory(GiB)": 74.93,
      "step": 1165,
      "token_acc": 0.6244993324432577,
      "train_speed(iter/s)": 0.056271
    },
    {
      "epoch": 0.8649048235076695,
      "grad_norm": 1.0190543071260865,
      "learning_rate": 1.2098811020648475e-05,
      "loss": 1.1221609115600586,
      "memory(GiB)": 74.93,
      "step": 1170,
      "token_acc": 0.612531328320802,
      "train_speed(iter/s)": 0.056297
    },
    {
      "epoch": 0.868600997967104,
      "grad_norm": 1.055731899501751,
      "learning_rate": 1.2041978225118409e-05,
      "loss": 1.0942396163940429,
      "memory(GiB)": 74.93,
      "step": 1175,
      "token_acc": 0.61580547112462,
      "train_speed(iter/s)": 0.056324
    },
    {
      "epoch": 0.8722971724265385,
      "grad_norm": 1.1595911679468829,
      "learning_rate": 1.1985076520537995e-05,
      "loss": 1.1030941009521484,
      "memory(GiB)": 74.93,
      "step": 1180,
      "token_acc": 0.6299868478737396,
      "train_speed(iter/s)": 0.056356
    },
    {
      "epoch": 0.875993346885973,
      "grad_norm": 1.1461146239140465,
      "learning_rate": 1.1928107827124786e-05,
      "loss": 1.0970783233642578,
      "memory(GiB)": 74.93,
      "step": 1185,
      "token_acc": 0.644696639022261,
      "train_speed(iter/s)": 0.056381
    },
    {
      "epoch": 0.8796895213454075,
      "grad_norm": 1.0680776701688195,
      "learning_rate": 1.1871074067356952e-05,
      "loss": 1.079010009765625,
      "memory(GiB)": 74.93,
      "step": 1190,
      "token_acc": 0.6483679525222552,
      "train_speed(iter/s)": 0.056408
    },
    {
      "epoch": 0.8833856958048419,
      "grad_norm": 1.1205292458140585,
      "learning_rate": 1.1813977165908406e-05,
      "loss": 1.098078155517578,
      "memory(GiB)": 74.93,
      "step": 1195,
      "token_acc": 0.6183456183456183,
      "train_speed(iter/s)": 0.056441
    },
    {
      "epoch": 0.8870818702642764,
      "grad_norm": 1.073187725881319,
      "learning_rate": 1.1756819049583861e-05,
      "loss": 1.1022902488708497,
      "memory(GiB)": 74.93,
      "step": 1200,
      "token_acc": 0.6195414847161572,
      "train_speed(iter/s)": 0.056472
    },
    {
      "epoch": 0.8870818702642764,
      "eval_loss": 0.6976271271705627,
      "eval_runtime": 87.7392,
      "eval_samples_per_second": 79.725,
      "eval_steps_per_second": 0.627,
      "eval_token_acc": 0.6255041474569267,
      "step": 1200
    },
    {
      "epoch": 0.8907780447237109,
      "grad_norm": 1.0836927609908615,
      "learning_rate": 1.1699601647253791e-05,
      "loss": 1.0966317176818847,
      "memory(GiB)": 74.93,
      "step": 1205,
      "token_acc": 0.6305779078273592,
      "train_speed(iter/s)": 0.056207
    },
    {
      "epoch": 0.8944742191831454,
      "grad_norm": 1.1200101176242079,
      "learning_rate": 1.1642326889789352e-05,
      "loss": 1.1052473068237305,
      "memory(GiB)": 74.93,
      "step": 1210,
      "token_acc": 0.6330027051397655,
      "train_speed(iter/s)": 0.05623
    },
    {
      "epoch": 0.8981703936425799,
      "grad_norm": 0.8945893498959235,
      "learning_rate": 1.158499670999722e-05,
      "loss": 1.0987310409545898,
      "memory(GiB)": 74.93,
      "step": 1215,
      "token_acc": 0.6409691629955947,
      "train_speed(iter/s)": 0.05626
    },
    {
      "epoch": 0.9018665681020144,
      "grad_norm": 1.1729053883136484,
      "learning_rate": 1.1527613042554368e-05,
      "loss": 1.1048666000366212,
      "memory(GiB)": 74.93,
      "step": 1220,
      "token_acc": 0.6676938880328711,
      "train_speed(iter/s)": 0.056294
    },
    {
      "epoch": 0.9055627425614489,
      "grad_norm": 1.0443569914858049,
      "learning_rate": 1.147017782394277e-05,
      "loss": 1.081749439239502,
      "memory(GiB)": 74.93,
      "step": 1225,
      "token_acc": 0.608612895550797,
      "train_speed(iter/s)": 0.056319
    },
    {
      "epoch": 0.9092589170208834,
      "grad_norm": 1.2005283092061096,
      "learning_rate": 1.1412692992384058e-05,
      "loss": 1.091093158721924,
      "memory(GiB)": 74.93,
      "step": 1230,
      "token_acc": 0.606317160534028,
      "train_speed(iter/s)": 0.056348
    },
    {
      "epoch": 0.9129550914803178,
      "grad_norm": 1.0896928360432243,
      "learning_rate": 1.1355160487774119e-05,
      "loss": 1.1176409721374512,
      "memory(GiB)": 74.93,
      "step": 1235,
      "token_acc": 0.5716694772344013,
      "train_speed(iter/s)": 0.056377
    },
    {
      "epoch": 0.9166512659397523,
      "grad_norm": 1.09517195359763,
      "learning_rate": 1.1297582251617618e-05,
      "loss": 1.1004619598388672,
      "memory(GiB)": 74.93,
      "step": 1240,
      "token_acc": 0.6309497935231472,
      "train_speed(iter/s)": 0.056401
    },
    {
      "epoch": 0.9203474403991868,
      "grad_norm": 1.0558160321968586,
      "learning_rate": 1.1239960226962491e-05,
      "loss": 1.1076683044433593,
      "memory(GiB)": 74.93,
      "step": 1245,
      "token_acc": 0.624376731301939,
      "train_speed(iter/s)": 0.056433
    },
    {
      "epoch": 0.9240436148586213,
      "grad_norm": 1.167401656088389,
      "learning_rate": 1.1182296358334373e-05,
      "loss": 1.0801752090454102,
      "memory(GiB)": 74.93,
      "step": 1250,
      "token_acc": 0.6274625110261688,
      "train_speed(iter/s)": 0.056468
    },
    {
      "epoch": 0.9240436148586213,
      "eval_loss": 0.6896535158157349,
      "eval_runtime": 89.0061,
      "eval_samples_per_second": 78.59,
      "eval_steps_per_second": 0.618,
      "eval_token_acc": 0.6259704910690581,
      "step": 1250
    },
    {
      "epoch": 0.9277397893180558,
      "grad_norm": 1.2651651199409124,
      "learning_rate": 1.1124592591670964e-05,
      "loss": 1.0778679847717285,
      "memory(GiB)": 74.93,
      "step": 1255,
      "token_acc": 0.6440798016763074,
      "train_speed(iter/s)": 0.056224
    },
    {
      "epoch": 0.9314359637774903,
      "grad_norm": 1.0901265302180776,
      "learning_rate": 1.1066850874256387e-05,
      "loss": 1.0967378616333008,
      "memory(GiB)": 74.93,
      "step": 1260,
      "token_acc": 0.6274731486715659,
      "train_speed(iter/s)": 0.056248
    },
    {
      "epoch": 0.9351321382369248,
      "grad_norm": 1.0804226410639166,
      "learning_rate": 1.1009073154655452e-05,
      "loss": 1.0889236450195312,
      "memory(GiB)": 74.93,
      "step": 1265,
      "token_acc": 0.620845921450151,
      "train_speed(iter/s)": 0.056269
    },
    {
      "epoch": 0.9388283126963592,
      "grad_norm": 1.228390945564267,
      "learning_rate": 1.09512613826479e-05,
      "loss": 1.1092605590820312,
      "memory(GiB)": 74.93,
      "step": 1270,
      "token_acc": 0.6499229583975347,
      "train_speed(iter/s)": 0.056301
    },
    {
      "epoch": 0.9425244871557937,
      "grad_norm": 1.179672539170986,
      "learning_rate": 1.0893417509162624e-05,
      "loss": 1.099574661254883,
      "memory(GiB)": 74.93,
      "step": 1275,
      "token_acc": 0.6232127838519764,
      "train_speed(iter/s)": 0.056325
    },
    {
      "epoch": 0.9462206616152282,
      "grad_norm": 1.0309784047078987,
      "learning_rate": 1.0835543486211815e-05,
      "loss": 1.1081634521484376,
      "memory(GiB)": 74.93,
      "step": 1280,
      "token_acc": 0.6257142857142857,
      "train_speed(iter/s)": 0.056352
    },
    {
      "epoch": 0.9499168360746627,
      "grad_norm": 1.1083199849496777,
      "learning_rate": 1.0777641266825094e-05,
      "loss": 1.1096603393554687,
      "memory(GiB)": 74.93,
      "step": 1285,
      "token_acc": 0.6357894736842106,
      "train_speed(iter/s)": 0.056378
    },
    {
      "epoch": 0.9536130105340972,
      "grad_norm": 1.0035577075576465,
      "learning_rate": 1.0719712804983604e-05,
      "loss": 1.1045263290405274,
      "memory(GiB)": 74.93,
      "step": 1290,
      "token_acc": 0.6397618260006616,
      "train_speed(iter/s)": 0.056405
    },
    {
      "epoch": 0.9573091849935317,
      "grad_norm": 1.0502142381441943,
      "learning_rate": 1.0661760055554083e-05,
      "loss": 1.082082462310791,
      "memory(GiB)": 74.93,
      "step": 1295,
      "token_acc": 0.6266829865361077,
      "train_speed(iter/s)": 0.056429
    },
    {
      "epoch": 0.9610053594529662,
      "grad_norm": 1.2499115770499312,
      "learning_rate": 1.0603784974222862e-05,
      "loss": 1.098296546936035,
      "memory(GiB)": 74.93,
      "step": 1300,
      "token_acc": 0.6284748309541698,
      "train_speed(iter/s)": 0.056459
    },
    {
      "epoch": 0.9610053594529662,
      "eval_loss": 0.6888419389724731,
      "eval_runtime": 87.7552,
      "eval_samples_per_second": 79.71,
      "eval_steps_per_second": 0.627,
      "eval_token_acc": 0.6259658738055717,
      "step": 1300
    },
    {
      "epoch": 0.9647015339124007,
      "grad_norm": 1.2558210208759852,
      "learning_rate": 1.054578951742991e-05,
      "loss": 1.0757410049438476,
      "memory(GiB)": 74.93,
      "step": 1305,
      "token_acc": 0.6296939859059755,
      "train_speed(iter/s)": 0.056222
    },
    {
      "epoch": 0.9683977083718351,
      "grad_norm": 1.1509712834800971,
      "learning_rate": 1.048777564230278e-05,
      "loss": 1.1064401626586915,
      "memory(GiB)": 74.93,
      "step": 1310,
      "token_acc": 0.6144927536231884,
      "train_speed(iter/s)": 0.056247
    },
    {
      "epoch": 0.9720938828312696,
      "grad_norm": 1.1877122033430165,
      "learning_rate": 1.0429745306590573e-05,
      "loss": 1.0995939254760743,
      "memory(GiB)": 74.93,
      "step": 1315,
      "token_acc": 0.6551246537396122,
      "train_speed(iter/s)": 0.056264
    },
    {
      "epoch": 0.9757900572907041,
      "grad_norm": 1.0334473323989715,
      "learning_rate": 1.0371700468597886e-05,
      "loss": 1.0957868576049805,
      "memory(GiB)": 74.93,
      "step": 1320,
      "token_acc": 0.6152882205513784,
      "train_speed(iter/s)": 0.056289
    },
    {
      "epoch": 0.9794862317501386,
      "grad_norm": 1.0379714843668957,
      "learning_rate": 1.0313643087118692e-05,
      "loss": 1.0816888809204102,
      "memory(GiB)": 74.93,
      "step": 1325,
      "token_acc": 0.6423645320197044,
      "train_speed(iter/s)": 0.056319
    },
    {
      "epoch": 0.9831824062095731,
      "grad_norm": 1.0681169313465444,
      "learning_rate": 1.0255575121370277e-05,
      "loss": 1.0688974380493164,
      "memory(GiB)": 74.93,
      "step": 1330,
      "token_acc": 0.6287527459116427,
      "train_speed(iter/s)": 0.056343
    },
    {
      "epoch": 0.9868785806690076,
      "grad_norm": 1.1171758504896703,
      "learning_rate": 1.0197498530927102e-05,
      "loss": 1.099297332763672,
      "memory(GiB)": 74.93,
      "step": 1335,
      "token_acc": 0.6077836745008846,
      "train_speed(iter/s)": 0.056367
    },
    {
      "epoch": 0.9905747551284421,
      "grad_norm": 1.0576212439483514,
      "learning_rate": 1.0139415275654671e-05,
      "loss": 1.0867423057556151,
      "memory(GiB)": 74.93,
      "step": 1340,
      "token_acc": 0.6263262599469496,
      "train_speed(iter/s)": 0.056396
    },
    {
      "epoch": 0.9942709295878766,
      "grad_norm": 1.258815850774044,
      "learning_rate": 1.0081327315643406e-05,
      "loss": 1.1155497550964355,
      "memory(GiB)": 74.93,
      "step": 1345,
      "token_acc": 0.655549765502866,
      "train_speed(iter/s)": 0.056419
    },
    {
      "epoch": 0.997967104047311,
      "grad_norm": 1.0659691536136329,
      "learning_rate": 1.0023236611142499e-05,
      "loss": 1.057703685760498,
      "memory(GiB)": 74.93,
      "step": 1350,
      "token_acc": 0.712,
      "train_speed(iter/s)": 0.056446
    },
    {
      "epoch": 0.997967104047311,
      "eval_loss": 0.6881307363510132,
      "eval_runtime": 86.0221,
      "eval_samples_per_second": 81.316,
      "eval_steps_per_second": 0.639,
      "eval_token_acc": 0.626765814704599,
      "step": 1350
    },
    {
      "epoch": 1.0022177046756606,
      "grad_norm": 1.3069033033680353,
      "learning_rate": 9.965145122493756e-06,
      "loss": 1.2448784828186035,
      "memory(GiB)": 74.93,
      "step": 1355,
      "token_acc": 0.6295214105793451,
      "train_speed(iter/s)": 0.056171
    },
    {
      "epoch": 1.0059138791350952,
      "grad_norm": 0.9882434180756982,
      "learning_rate": 9.907054810065446e-06,
      "loss": 1.062336540222168,
      "memory(GiB)": 74.93,
      "step": 1360,
      "token_acc": 0.6483717526527625,
      "train_speed(iter/s)": 0.056192
    },
    {
      "epoch": 1.0096100535945296,
      "grad_norm": 1.2362454534970095,
      "learning_rate": 9.848967634186142e-06,
      "loss": 1.0906942367553711,
      "memory(GiB)": 74.93,
      "step": 1365,
      "token_acc": 0.6448347722536469,
      "train_speed(iter/s)": 0.056213
    },
    {
      "epoch": 1.0133062280539642,
      "grad_norm": 1.070334993285048,
      "learning_rate": 9.790885555078575e-06,
      "loss": 1.0470151901245117,
      "memory(GiB)": 74.93,
      "step": 1370,
      "token_acc": 0.6228728728728729,
      "train_speed(iter/s)": 0.056237
    },
    {
      "epoch": 1.0170024025133986,
      "grad_norm": 1.0576680139627181,
      "learning_rate": 9.732810532793465e-06,
      "loss": 1.0586755752563477,
      "memory(GiB)": 74.93,
      "step": 1375,
      "token_acc": 0.6435643564356436,
      "train_speed(iter/s)": 0.056266
    },
    {
      "epoch": 1.0206985769728332,
      "grad_norm": 1.0167739538945428,
      "learning_rate": 9.674744527143419e-06,
      "loss": 1.059821891784668,
      "memory(GiB)": 74.93,
      "step": 1380,
      "token_acc": 0.6397306397306397,
      "train_speed(iter/s)": 0.056291
    },
    {
      "epoch": 1.0243947514322675,
      "grad_norm": 1.1268503654686965,
      "learning_rate": 9.61668949763674e-06,
      "loss": 1.0377557754516602,
      "memory(GiB)": 74.93,
      "step": 1385,
      "token_acc": 0.6721439749608764,
      "train_speed(iter/s)": 0.056311
    },
    {
      "epoch": 1.0280909258917021,
      "grad_norm": 0.9931688648143746,
      "learning_rate": 9.558647403411334e-06,
      "loss": 1.0480243682861328,
      "memory(GiB)": 74.93,
      "step": 1390,
      "token_acc": 0.6135416666666667,
      "train_speed(iter/s)": 0.056336
    },
    {
      "epoch": 1.0317871003511365,
      "grad_norm": 1.1339232037274705,
      "learning_rate": 9.500620203168604e-06,
      "loss": 1.0579310417175294,
      "memory(GiB)": 74.93,
      "step": 1395,
      "token_acc": 0.6699186991869919,
      "train_speed(iter/s)": 0.056365
    },
    {
      "epoch": 1.0354832748105711,
      "grad_norm": 0.9738636619210117,
      "learning_rate": 9.442609855107317e-06,
      "loss": 1.0384546279907227,
      "memory(GiB)": 74.93,
      "step": 1400,
      "token_acc": 0.6303651505445227,
      "train_speed(iter/s)": 0.056383
    },
    {
      "epoch": 1.0354832748105711,
      "eval_loss": 0.6841524243354797,
      "eval_runtime": 86.5188,
      "eval_samples_per_second": 80.849,
      "eval_steps_per_second": 0.636,
      "eval_token_acc": 0.6267785121791868,
      "step": 1400
    },
    {
      "epoch": 1.0391794492700055,
      "grad_norm": 1.0076575163805248,
      "learning_rate": 9.38461831685756e-06,
      "loss": 1.0656241416931151,
      "memory(GiB)": 74.93,
      "step": 1405,
      "token_acc": 0.6295483423818875,
      "train_speed(iter/s)": 0.056156
    },
    {
      "epoch": 1.04287562372944,
      "grad_norm": 1.0590248393948134,
      "learning_rate": 9.326647545414647e-06,
      "loss": 1.0602170944213867,
      "memory(GiB)": 74.93,
      "step": 1410,
      "token_acc": 0.7284836065573771,
      "train_speed(iter/s)": 0.056177
    },
    {
      "epoch": 1.0465717981888745,
      "grad_norm": 1.0411050083571975,
      "learning_rate": 9.268699497073102e-06,
      "loss": 1.0623086929321288,
      "memory(GiB)": 74.93,
      "step": 1415,
      "token_acc": 0.6079059829059829,
      "train_speed(iter/s)": 0.056203
    },
    {
      "epoch": 1.050267972648309,
      "grad_norm": 1.0820280991464322,
      "learning_rate": 9.21077612736062e-06,
      "loss": 1.0742631912231446,
      "memory(GiB)": 74.93,
      "step": 1420,
      "token_acc": 0.6051423324150597,
      "train_speed(iter/s)": 0.056231
    },
    {
      "epoch": 1.0539641471077434,
      "grad_norm": 1.0150109672389387,
      "learning_rate": 9.152879390972085e-06,
      "loss": 1.060621452331543,
      "memory(GiB)": 74.93,
      "step": 1425,
      "token_acc": 0.6677704194260485,
      "train_speed(iter/s)": 0.056246
    },
    {
      "epoch": 1.057660321567178,
      "grad_norm": 1.0625464742964672,
      "learning_rate": 9.095011241703623e-06,
      "loss": 1.1060840606689453,
      "memory(GiB)": 74.93,
      "step": 1430,
      "token_acc": 0.617154288572143,
      "train_speed(iter/s)": 0.056275
    },
    {
      "epoch": 1.0613564960266124,
      "grad_norm": 1.080121630294682,
      "learning_rate": 9.037173632386635e-06,
      "loss": 1.051788902282715,
      "memory(GiB)": 74.93,
      "step": 1435,
      "token_acc": 0.693069306930693,
      "train_speed(iter/s)": 0.056295
    },
    {
      "epoch": 1.065052670486047,
      "grad_norm": 0.9965862626370368,
      "learning_rate": 8.979368514821917e-06,
      "loss": 1.0715249061584473,
      "memory(GiB)": 74.93,
      "step": 1440,
      "token_acc": 0.6563587166602242,
      "train_speed(iter/s)": 0.05632
    },
    {
      "epoch": 1.0687488449454814,
      "grad_norm": 1.0523645368442776,
      "learning_rate": 8.921597839713803e-06,
      "loss": 1.0732128143310546,
      "memory(GiB)": 74.93,
      "step": 1445,
      "token_acc": 0.6195273149941883,
      "train_speed(iter/s)": 0.056345
    },
    {
      "epoch": 1.072445019404916,
      "grad_norm": 0.9439502959144558,
      "learning_rate": 8.863863556604312e-06,
      "loss": 1.0644493103027344,
      "memory(GiB)": 74.93,
      "step": 1450,
      "token_acc": 0.6215469613259669,
      "train_speed(iter/s)": 0.056369
    },
    {
      "epoch": 1.072445019404916,
      "eval_loss": 0.6834661960601807,
      "eval_runtime": 87.5557,
      "eval_samples_per_second": 79.892,
      "eval_steps_per_second": 0.628,
      "eval_token_acc": 0.627048622093144,
      "step": 1450
    },
    {
      "epoch": 1.0761411938643504,
      "grad_norm": 1.1260430229381853,
      "learning_rate": 8.806167613807374e-06,
      "loss": 1.0463625907897949,
      "memory(GiB)": 74.93,
      "step": 1455,
      "token_acc": 0.6380742913000977,
      "train_speed(iter/s)": 0.05615
    },
    {
      "epoch": 1.079837368323785,
      "grad_norm": 1.1262155455903309,
      "learning_rate": 8.748511958343076e-06,
      "loss": 1.0758758544921876,
      "memory(GiB)": 74.93,
      "step": 1460,
      "token_acc": 0.6353591160220995,
      "train_speed(iter/s)": 0.056173
    },
    {
      "epoch": 1.0835335427832193,
      "grad_norm": 1.0836611872394941,
      "learning_rate": 8.690898535871967e-06,
      "loss": 1.0662212371826172,
      "memory(GiB)": 74.93,
      "step": 1465,
      "token_acc": 0.6074675324675325,
      "train_speed(iter/s)": 0.0562
    },
    {
      "epoch": 1.087229717242654,
      "grad_norm": 1.1980862381018496,
      "learning_rate": 8.633329290629385e-06,
      "loss": 1.042177963256836,
      "memory(GiB)": 74.93,
      "step": 1470,
      "token_acc": 0.6368200836820084,
      "train_speed(iter/s)": 0.056225
    },
    {
      "epoch": 1.0909258917020883,
      "grad_norm": 1.1395698139161996,
      "learning_rate": 8.575806165359852e-06,
      "loss": 1.0712276458740235,
      "memory(GiB)": 74.93,
      "step": 1475,
      "token_acc": 0.6389548693586699,
      "train_speed(iter/s)": 0.056249
    },
    {
      "epoch": 1.094622066161523,
      "grad_norm": 1.0531458891625334,
      "learning_rate": 8.51833110125153e-06,
      "loss": 1.0721662521362305,
      "memory(GiB)": 74.93,
      "step": 1480,
      "token_acc": 0.6220368744512731,
      "train_speed(iter/s)": 0.056271
    },
    {
      "epoch": 1.0983182406209573,
      "grad_norm": 0.952355580471414,
      "learning_rate": 8.460906037870677e-06,
      "loss": 1.018984603881836,
      "memory(GiB)": 74.93,
      "step": 1485,
      "token_acc": 0.6109256449165402,
      "train_speed(iter/s)": 0.056292
    },
    {
      "epoch": 1.1020144150803919,
      "grad_norm": 1.0722820285217056,
      "learning_rate": 8.403532913096231e-06,
      "loss": 1.0254201889038086,
      "memory(GiB)": 74.93,
      "step": 1490,
      "token_acc": 0.6746411483253588,
      "train_speed(iter/s)": 0.056313
    },
    {
      "epoch": 1.1057105895398263,
      "grad_norm": 1.0574628279248734,
      "learning_rate": 8.346213663054388e-06,
      "loss": 1.0446287155151368,
      "memory(GiB)": 74.93,
      "step": 1495,
      "token_acc": 0.6608030592734225,
      "train_speed(iter/s)": 0.056333
    },
    {
      "epoch": 1.1094067639992609,
      "grad_norm": 1.0816482005421177,
      "learning_rate": 8.288950222053287e-06,
      "loss": 1.0296789169311524,
      "memory(GiB)": 74.93,
      "step": 1500,
      "token_acc": 0.5984496124031008,
      "train_speed(iter/s)": 0.056359
    },
    {
      "epoch": 1.1094067639992609,
      "eval_loss": 0.6838507056236267,
      "eval_runtime": 89.1049,
      "eval_samples_per_second": 78.503,
      "eval_steps_per_second": 0.617,
      "eval_token_acc": 0.6276061566591329,
      "step": 1500
    },
    {
      "epoch": 1.1131029384586952,
      "grad_norm": 1.0669000768005377,
      "learning_rate": 8.231744522517713e-06,
      "loss": 1.052156925201416,
      "memory(GiB)": 74.93,
      "step": 1505,
      "token_acc": 0.6264432872990717,
      "train_speed(iter/s)": 0.056154
    },
    {
      "epoch": 1.1167991129181298,
      "grad_norm": 1.123101456521189,
      "learning_rate": 8.174598494923893e-06,
      "loss": 1.0532621383666991,
      "memory(GiB)": 74.93,
      "step": 1510,
      "token_acc": 0.6674074074074074,
      "train_speed(iter/s)": 0.056174
    },
    {
      "epoch": 1.1204952873775642,
      "grad_norm": 0.9597873108803062,
      "learning_rate": 8.117514067734365e-06,
      "loss": 1.0872188568115235,
      "memory(GiB)": 74.93,
      "step": 1515,
      "token_acc": 0.6229354939233406,
      "train_speed(iter/s)": 0.056193
    },
    {
      "epoch": 1.1241914618369988,
      "grad_norm": 1.01751822081855,
      "learning_rate": 8.060493167332874e-06,
      "loss": 1.0647924423217774,
      "memory(GiB)": 74.93,
      "step": 1520,
      "token_acc": 0.6589195979899497,
      "train_speed(iter/s)": 0.056222
    },
    {
      "epoch": 1.1278876362964332,
      "grad_norm": 1.2668018355322213,
      "learning_rate": 8.003537717959378e-06,
      "loss": 1.054795265197754,
      "memory(GiB)": 74.93,
      "step": 1525,
      "token_acc": 0.6280428432327166,
      "train_speed(iter/s)": 0.056242
    },
    {
      "epoch": 1.1315838107558678,
      "grad_norm": 1.0402787270589529,
      "learning_rate": 7.946649641645108e-06,
      "loss": 1.0737996101379395,
      "memory(GiB)": 74.93,
      "step": 1530,
      "token_acc": 0.6400172860847018,
      "train_speed(iter/s)": 0.056265
    },
    {
      "epoch": 1.1352799852153022,
      "grad_norm": 1.1860588895073847,
      "learning_rate": 7.889830858147718e-06,
      "loss": 1.0505868911743164,
      "memory(GiB)": 74.93,
      "step": 1535,
      "token_acc": 0.6243339253996447,
      "train_speed(iter/s)": 0.056293
    },
    {
      "epoch": 1.1389761596747365,
      "grad_norm": 1.0989591028912902,
      "learning_rate": 7.833083284886484e-06,
      "loss": 1.0597726821899414,
      "memory(GiB)": 74.93,
      "step": 1540,
      "token_acc": 0.6668341708542713,
      "train_speed(iter/s)": 0.056316
    },
    {
      "epoch": 1.1426723341341711,
      "grad_norm": 1.1347824812891065,
      "learning_rate": 7.7764088368776e-06,
      "loss": 1.0500106811523438,
      "memory(GiB)": 74.93,
      "step": 1545,
      "token_acc": 0.6302988186240445,
      "train_speed(iter/s)": 0.056337
    },
    {
      "epoch": 1.1463685085936057,
      "grad_norm": 1.0564162756732445,
      "learning_rate": 7.719809426669576e-06,
      "loss": 1.0577827453613282,
      "memory(GiB)": 74.93,
      "step": 1550,
      "token_acc": 0.6201646090534979,
      "train_speed(iter/s)": 0.056358
    },
    {
      "epoch": 1.1463685085936057,
      "eval_loss": 0.6770405769348145,
      "eval_runtime": 87.0148,
      "eval_samples_per_second": 80.389,
      "eval_steps_per_second": 0.632,
      "eval_token_acc": 0.6278058533049218,
      "step": 1550
    },
    {
      "epoch": 1.15006468305304,
      "grad_norm": 1.1665260843525407,
      "learning_rate": 7.663286964278665e-06,
      "loss": 1.046430492401123,
      "memory(GiB)": 74.93,
      "step": 1555,
      "token_acc": 0.6295910639909126,
      "train_speed(iter/s)": 0.056161
    },
    {
      "epoch": 1.1537608575124745,
      "grad_norm": 1.0893384767496972,
      "learning_rate": 7.606843357124426e-06,
      "loss": 1.0604162216186523,
      "memory(GiB)": 74.93,
      "step": 1560,
      "token_acc": 0.618162506638343,
      "train_speed(iter/s)": 0.056181
    },
    {
      "epoch": 1.157457031971909,
      "grad_norm": 1.0091311530942315,
      "learning_rate": 7.550480509965348e-06,
      "loss": 1.0764715194702148,
      "memory(GiB)": 74.93,
      "step": 1565,
      "token_acc": 0.6651108518086347,
      "train_speed(iter/s)": 0.056207
    },
    {
      "epoch": 1.1611532064313437,
      "grad_norm": 0.9991849558827516,
      "learning_rate": 7.494200324834588e-06,
      "loss": 1.076918888092041,
      "memory(GiB)": 74.93,
      "step": 1570,
      "token_acc": 0.6519940915805023,
      "train_speed(iter/s)": 0.056225
    },
    {
      "epoch": 1.164849380890778,
      "grad_norm": 1.1070133372574182,
      "learning_rate": 7.43800470097576e-06,
      "loss": 1.0360871315002442,
      "memory(GiB)": 74.93,
      "step": 1575,
      "token_acc": 0.6534121440085975,
      "train_speed(iter/s)": 0.056247
    },
    {
      "epoch": 1.1685455553502124,
      "grad_norm": 0.9616191113258434,
      "learning_rate": 7.381895534778852e-06,
      "loss": 1.071969223022461,
      "memory(GiB)": 74.93,
      "step": 1580,
      "token_acc": 0.6318518518518519,
      "train_speed(iter/s)": 0.05627
    },
    {
      "epoch": 1.172241729809647,
      "grad_norm": 0.9588896754114927,
      "learning_rate": 7.3258747197162484e-06,
      "loss": 1.0856236457824706,
      "memory(GiB)": 74.93,
      "step": 1585,
      "token_acc": 0.6137469586374696,
      "train_speed(iter/s)": 0.05629
    },
    {
      "epoch": 1.1759379042690816,
      "grad_norm": 1.155114349369357,
      "learning_rate": 7.269944146278801e-06,
      "loss": 1.054957962036133,
      "memory(GiB)": 74.93,
      "step": 1590,
      "token_acc": 0.6266263237518911,
      "train_speed(iter/s)": 0.056314
    },
    {
      "epoch": 1.179634078728516,
      "grad_norm": 1.0144629940415562,
      "learning_rate": 7.214105701912054e-06,
      "loss": 1.0508974075317383,
      "memory(GiB)": 74.93,
      "step": 1595,
      "token_acc": 0.6369260827092152,
      "train_speed(iter/s)": 0.056334
    },
    {
      "epoch": 1.1833302531879504,
      "grad_norm": 1.1824656228465167,
      "learning_rate": 7.1583612709525405e-06,
      "loss": 1.0430817604064941,
      "memory(GiB)": 74.93,
      "step": 1600,
      "token_acc": 0.6061151079136691,
      "train_speed(iter/s)": 0.056355
    },
    {
      "epoch": 1.1833302531879504,
      "eval_loss": 0.674736499786377,
      "eval_runtime": 85.716,
      "eval_samples_per_second": 81.607,
      "eval_steps_per_second": 0.642,
      "eval_token_acc": 0.6284499615612815,
      "step": 1600
    },
    {
      "epoch": 1.187026427647385,
      "grad_norm": 1.1524983234954504,
      "learning_rate": 7.102712734564202e-06,
      "loss": 1.046616268157959,
      "memory(GiB)": 74.93,
      "step": 1605,
      "token_acc": 0.6345166331770484,
      "train_speed(iter/s)": 0.056165
    },
    {
      "epoch": 1.1907226021068193,
      "grad_norm": 0.9309819347033588,
      "learning_rate": 7.047161970674896e-06,
      "loss": 1.0448005676269532,
      "memory(GiB)": 74.93,
      "step": 1610,
      "token_acc": 0.6130097087378641,
      "train_speed(iter/s)": 0.056187
    },
    {
      "epoch": 1.194418776566254,
      "grad_norm": 1.0772202352983227,
      "learning_rate": 6.991710853913025e-06,
      "loss": 1.0570079803466796,
      "memory(GiB)": 74.93,
      "step": 1615,
      "token_acc": 0.6610324349017817,
      "train_speed(iter/s)": 0.056205
    },
    {
      "epoch": 1.1981149510256883,
      "grad_norm": 1.1619152201928238,
      "learning_rate": 6.936361255544288e-06,
      "loss": 1.044645118713379,
      "memory(GiB)": 74.93,
      "step": 1620,
      "token_acc": 0.6945525291828794,
      "train_speed(iter/s)": 0.056227
    },
    {
      "epoch": 1.201811125485123,
      "grad_norm": 1.0467564412195258,
      "learning_rate": 6.881115043408512e-06,
      "loss": 1.045677661895752,
      "memory(GiB)": 74.93,
      "step": 1625,
      "token_acc": 0.648811228874248,
      "train_speed(iter/s)": 0.056246
    },
    {
      "epoch": 1.2055072999445573,
      "grad_norm": 1.0325120697680106,
      "learning_rate": 6.825974081856626e-06,
      "loss": 1.0619203567504882,
      "memory(GiB)": 74.93,
      "step": 1630,
      "token_acc": 0.6202729044834308,
      "train_speed(iter/s)": 0.056267
    },
    {
      "epoch": 1.209203474403992,
      "grad_norm": 0.9412938462579274,
      "learning_rate": 6.770940231687767e-06,
      "loss": 1.0478931427001954,
      "memory(GiB)": 74.93,
      "step": 1635,
      "token_acc": 0.6356352537199542,
      "train_speed(iter/s)": 0.056289
    },
    {
      "epoch": 1.2128996488634263,
      "grad_norm": 1.140398149863178,
      "learning_rate": 6.716015350086449e-06,
      "loss": 1.0618717193603515,
      "memory(GiB)": 74.93,
      "step": 1640,
      "token_acc": 0.6066892464013548,
      "train_speed(iter/s)": 0.05631
    },
    {
      "epoch": 1.2165958233228609,
      "grad_norm": 1.0930330137960338,
      "learning_rate": 6.661201290559918e-06,
      "loss": 1.0522537231445312,
      "memory(GiB)": 74.93,
      "step": 1645,
      "token_acc": 0.6371971185330714,
      "train_speed(iter/s)": 0.056329
    },
    {
      "epoch": 1.2202919977822952,
      "grad_norm": 1.0731043610961355,
      "learning_rate": 6.606499902875585e-06,
      "loss": 1.0263765335083008,
      "memory(GiB)": 74.93,
      "step": 1650,
      "token_acc": 0.6519023282226007,
      "train_speed(iter/s)": 0.056348
    },
    {
      "epoch": 1.2202919977822952,
      "eval_loss": 0.6756451725959778,
      "eval_runtime": 86.9798,
      "eval_samples_per_second": 80.421,
      "eval_steps_per_second": 0.632,
      "eval_token_acc": 0.6288528178004742,
      "step": 1650
    },
    {
      "epoch": 1.2239881722417298,
      "grad_norm": 1.131205462756531,
      "learning_rate": 6.5519130329986245e-06,
      "loss": 1.0687341690063477,
      "memory(GiB)": 74.93,
      "step": 1655,
      "token_acc": 0.6333847797696782,
      "train_speed(iter/s)": 0.056155
    },
    {
      "epoch": 1.2276843467011642,
      "grad_norm": 1.046052101501651,
      "learning_rate": 6.497442523029663e-06,
      "loss": 1.0175907135009765,
      "memory(GiB)": 74.93,
      "step": 1660,
      "token_acc": 0.6453744493392071,
      "train_speed(iter/s)": 0.056176
    },
    {
      "epoch": 1.2313805211605988,
      "grad_norm": 1.0553291483906215,
      "learning_rate": 6.443090211142613e-06,
      "loss": 1.0627668380737305,
      "memory(GiB)": 74.93,
      "step": 1665,
      "token_acc": 0.6409149762624082,
      "train_speed(iter/s)": 0.056196
    },
    {
      "epoch": 1.2350766956200332,
      "grad_norm": 0.9606710463766085,
      "learning_rate": 6.388857931522657e-06,
      "loss": 1.043929672241211,
      "memory(GiB)": 74.93,
      "step": 1670,
      "token_acc": 0.6334586466165414,
      "train_speed(iter/s)": 0.056218
    },
    {
      "epoch": 1.2387728700794678,
      "grad_norm": 0.9843358834706085,
      "learning_rate": 6.334747514304338e-06,
      "loss": 1.0336435317993165,
      "memory(GiB)": 74.93,
      "step": 1675,
      "token_acc": 0.6631016042780749,
      "train_speed(iter/s)": 0.056238
    },
    {
      "epoch": 1.2424690445389022,
      "grad_norm": 1.0297683983640094,
      "learning_rate": 6.280760785509802e-06,
      "loss": 1.0500383377075195,
      "memory(GiB)": 74.93,
      "step": 1680,
      "token_acc": 0.6349254639488896,
      "train_speed(iter/s)": 0.05626
    },
    {
      "epoch": 1.2461652189983368,
      "grad_norm": 1.0776782375280287,
      "learning_rate": 6.226899566987177e-06,
      "loss": 1.0217618942260742,
      "memory(GiB)": 74.93,
      "step": 1685,
      "token_acc": 0.655511811023622,
      "train_speed(iter/s)": 0.056281
    },
    {
      "epoch": 1.2498613934577711,
      "grad_norm": 1.0846016823921123,
      "learning_rate": 6.173165676349103e-06,
      "loss": 1.0370861053466798,
      "memory(GiB)": 74.93,
      "step": 1690,
      "token_acc": 0.6801365964712578,
      "train_speed(iter/s)": 0.056303
    },
    {
      "epoch": 1.2535575679172057,
      "grad_norm": 1.0790787844363594,
      "learning_rate": 6.119560926911377e-06,
      "loss": 1.0697561264038087,
      "memory(GiB)": 74.93,
      "step": 1695,
      "token_acc": 0.6681639528354857,
      "train_speed(iter/s)": 0.056324
    },
    {
      "epoch": 1.2572537423766401,
      "grad_norm": 1.106497642833312,
      "learning_rate": 6.066087127631761e-06,
      "loss": 1.0666908264160155,
      "memory(GiB)": 74.93,
      "step": 1700,
      "token_acc": 0.6533379694019471,
      "train_speed(iter/s)": 0.056341
    },
    {
      "epoch": 1.2572537423766401,
      "eval_loss": 0.6751002073287964,
      "eval_runtime": 88.5942,
      "eval_samples_per_second": 78.955,
      "eval_steps_per_second": 0.621,
      "eval_token_acc": 0.6288689782226767,
      "step": 1700
    },
    {
      "epoch": 1.2609499168360747,
      "grad_norm": 1.0779984264892808,
      "learning_rate": 6.012746083048966e-06,
      "loss": 1.0639089584350585,
      "memory(GiB)": 34.88,
      "step": 1705,
      "token_acc": 0.6968838526912181,
      "train_speed(iter/s)": 14.788094
    },
    {
      "epoch": 1.264646091295509,
      "grad_norm": 1.1027008185153624,
      "learning_rate": 5.959539593221711e-06,
      "loss": 1.0941818237304688,
      "memory(GiB)": 34.88,
      "step": 1710,
      "token_acc": 0.6294489092996556,
      "train_speed(iter/s)": 9.344634
    },
    {
      "epoch": 1.2683422657549437,
      "grad_norm": 1.2059692859973439,
      "learning_rate": 5.9064694536680135e-06,
      "loss": 1.0492952346801758,
      "memory(GiB)": 49.4,
      "step": 1715,
      "token_acc": 0.6576319543509273,
      "train_speed(iter/s)": 6.522706
    },
    {
      "epoch": 1.272038440214378,
      "grad_norm": 1.0913297173697671,
      "learning_rate": 5.853537455304575e-06,
      "loss": 1.0665050506591798,
      "memory(GiB)": 49.4,
      "step": 1720,
      "token_acc": 0.6941935483870968,
      "train_speed(iter/s)": 4.977275
    },
    {
      "epoch": 1.2757346146738127,
      "grad_norm": 1.1326249785449936,
      "learning_rate": 5.800745384386364e-06,
      "loss": 1.035014533996582,
      "memory(GiB)": 49.4,
      "step": 1725,
      "token_acc": 0.6055200269269606,
      "train_speed(iter/s)": 4.1257
    },
    {
      "epoch": 1.279430789133247,
      "grad_norm": 1.011492822170868,
      "learning_rate": 5.74809502244632e-06,
      "loss": 1.040954875946045,
      "memory(GiB)": 49.4,
      "step": 1730,
      "token_acc": 0.6559888579387186,
      "train_speed(iter/s)": 3.505361
    },
    {
      "epoch": 1.2831269635926816,
      "grad_norm": 0.9143549731190831,
      "learning_rate": 5.695588146235241e-06,
      "loss": 1.056338119506836,
      "memory(GiB)": 49.4,
      "step": 1735,
      "token_acc": 0.6355591311343524,
      "train_speed(iter/s)": 3.006185
    },
    {
      "epoch": 1.286823138052116,
      "grad_norm": 1.0541690596505233,
      "learning_rate": 5.643226527661825e-06,
      "loss": 1.0424397468566895,
      "memory(GiB)": 64.42,
      "step": 1740,
      "token_acc": 0.6127497621313035,
      "train_speed(iter/s)": 2.653736
    },
    {
      "epoch": 1.2905193125115506,
      "grad_norm": 1.071302718364978,
      "learning_rate": 5.591011933732873e-06,
      "loss": 1.0049684524536133,
      "memory(GiB)": 64.42,
      "step": 1745,
      "token_acc": 0.6237816764132553,
      "train_speed(iter/s)": 2.414167
    },
    {
      "epoch": 1.294215486970985,
      "grad_norm": 1.0017860936129825,
      "learning_rate": 5.538946126493659e-06,
      "loss": 1.048162841796875,
      "memory(GiB)": 64.42,
      "step": 1750,
      "token_acc": 0.6117103235747303,
      "train_speed(iter/s)": 2.163836
    },
    {
      "epoch": 1.294215486970985,
      "eval_loss": 0.6697070002555847,
      "eval_runtime": 85.8145,
      "eval_samples_per_second": 81.513,
      "eval_steps_per_second": 0.641,
      "eval_token_acc": 0.6293895746807739,
      "step": 1750
    },
    {
      "epoch": 1.2979116614304196,
      "grad_norm": 1.1010002294868126,
      "learning_rate": 5.4870308629684675e-06,
      "loss": 1.0428232192993163,
      "memory(GiB)": 74.63,
      "step": 1755,
      "token_acc": 0.634660903571061,
      "train_speed(iter/s)": 1.752193
    },
    {
      "epoch": 1.301607835889854,
      "grad_norm": 1.1351842621603827,
      "learning_rate": 5.435267895101303e-06,
      "loss": 1.0705801010131837,
      "memory(GiB)": 74.63,
      "step": 1760,
      "token_acc": 0.663578947368421,
      "train_speed(iter/s)": 1.629796
    },
    {
      "epoch": 1.3053040103492886,
      "grad_norm": 0.9688327106799416,
      "learning_rate": 5.383658969696767e-06,
      "loss": 1.043651008605957,
      "memory(GiB)": 74.63,
      "step": 1765,
      "token_acc": 0.6663619744058501,
      "train_speed(iter/s)": 1.540319
    },
    {
      "epoch": 1.309000184808723,
      "grad_norm": 1.0196740986171486,
      "learning_rate": 5.3322058283611045e-06,
      "loss": 1.066755485534668,
      "memory(GiB)": 74.63,
      "step": 1770,
      "token_acc": 0.6984352773826458,
      "train_speed(iter/s)": 1.440515
    },
    {
      "epoch": 1.3126963592681575,
      "grad_norm": 0.9324312791356152,
      "learning_rate": 5.2809102074434505e-06,
      "loss": 1.0861141204833984,
      "memory(GiB)": 74.63,
      "step": 1775,
      "token_acc": 0.6625352112676056,
      "train_speed(iter/s)": 1.355437
    },
    {
      "epoch": 1.316392533727592,
      "grad_norm": 1.0475529503023757,
      "learning_rate": 5.229773837977208e-06,
      "loss": 1.0537721633911132,
      "memory(GiB)": 74.63,
      "step": 1780,
      "token_acc": 0.6779266161910309,
      "train_speed(iter/s)": 1.294879
    },
    {
      "epoch": 1.3200887081870265,
      "grad_norm": 0.9281011767547357,
      "learning_rate": 5.178798445621645e-06,
      "loss": 1.0430593490600586,
      "memory(GiB)": 74.63,
      "step": 1785,
      "token_acc": 0.6330935251798561,
      "train_speed(iter/s)": 1.224208
    },
    {
      "epoch": 1.3237848826464609,
      "grad_norm": 1.0483168678654606,
      "learning_rate": 5.127985750603671e-06,
      "loss": 1.071333885192871,
      "memory(GiB)": 74.63,
      "step": 1790,
      "token_acc": 0.6417910447761194,
      "train_speed(iter/s)": 1.162932
    },
    {
      "epoch": 1.3274810571058955,
      "grad_norm": 1.097565660571469,
      "learning_rate": 5.077337467659768e-06,
      "loss": 1.0753141403198243,
      "memory(GiB)": 74.63,
      "step": 1795,
      "token_acc": 0.6051001821493625,
      "train_speed(iter/s)": 1.117195
    },
    {
      "epoch": 1.3311772315653299,
      "grad_norm": 1.063181582729188,
      "learning_rate": 5.026855305978129e-06,
      "loss": 1.0764029502868653,
      "memory(GiB)": 74.63,
      "step": 1800,
      "token_acc": 0.6232106339468303,
      "train_speed(iter/s)": 1.067656
    },
    {
      "epoch": 1.3311772315653299,
      "eval_loss": 0.6690813899040222,
      "eval_runtime": 85.9692,
      "eval_samples_per_second": 81.366,
      "eval_steps_per_second": 0.64,
      "eval_token_acc": 0.6297716532342776,
      "step": 1800
    },
    {
      "epoch": 1.3348734060247645,
      "grad_norm": 1.0429392429603475,
      "learning_rate": 4.976540969140984e-06,
      "loss": 1.090817928314209,
      "memory(GiB)": 74.63,
      "step": 1805,
      "token_acc": 0.6356786703601108,
      "train_speed(iter/s)": 0.961744
    },
    {
      "epoch": 1.3385695804841988,
      "grad_norm": 1.0548409670879852,
      "learning_rate": 4.926396155067114e-06,
      "loss": 1.0316819190979003,
      "memory(GiB)": 74.63,
      "step": 1810,
      "token_acc": 0.6598138091543833,
      "train_speed(iter/s)": 0.923472
    },
    {
      "epoch": 1.3422657549436332,
      "grad_norm": 1.0297653617411635,
      "learning_rate": 4.876422555954543e-06,
      "loss": 1.03601131439209,
      "memory(GiB)": 74.63,
      "step": 1815,
      "token_acc": 0.6965428937259923,
      "train_speed(iter/s)": 0.894132
    },
    {
      "epoch": 1.3459619294030678,
      "grad_norm": 1.1178512794477986,
      "learning_rate": 4.826621858223431e-06,
      "loss": 1.0318429946899415,
      "memory(GiB)": 74.63,
      "step": 1820,
      "token_acc": 0.6313304721030043,
      "train_speed(iter/s)": 0.864578
    },
    {
      "epoch": 1.3496581038625024,
      "grad_norm": 1.0401775609610366,
      "learning_rate": 4.776995742459184e-06,
      "loss": 1.0820954322814942,
      "memory(GiB)": 74.63,
      "step": 1825,
      "token_acc": 0.6357702349869452,
      "train_speed(iter/s)": 0.833393
    },
    {
      "epoch": 1.3533542783219368,
      "grad_norm": 1.1053520267340973,
      "learning_rate": 4.727545883355713e-06,
      "loss": 1.0570013046264648,
      "memory(GiB)": 74.63,
      "step": 1830,
      "token_acc": 0.6462998102466793,
      "train_speed(iter/s)": 0.80849
    },
    {
      "epoch": 1.3570504527813712,
      "grad_norm": 1.0129657782670332,
      "learning_rate": 4.678273949658939e-06,
      "loss": 1.0589232444763184,
      "memory(GiB)": 74.63,
      "step": 1835,
      "token_acc": 0.6194251734390486,
      "train_speed(iter/s)": 0.785859
    },
    {
      "epoch": 1.3607466272408058,
      "grad_norm": 0.9863992139542379,
      "learning_rate": 4.629181604110464e-06,
      "loss": 1.0515235900878905,
      "memory(GiB)": 74.63,
      "step": 1840,
      "token_acc": 0.6229317851959362,
      "train_speed(iter/s)": 0.761135
    },
    {
      "epoch": 1.3644428017002403,
      "grad_norm": 1.1494795183000623,
      "learning_rate": 4.580270503391487e-06,
      "loss": 1.0223835945129394,
      "memory(GiB)": 74.63,
      "step": 1845,
      "token_acc": 0.6583261432269197,
      "train_speed(iter/s)": 0.739616
    },
    {
      "epoch": 1.3681389761596747,
      "grad_norm": 1.14471617138646,
      "learning_rate": 4.531542298066861e-06,
      "loss": 1.0207533836364746,
      "memory(GiB)": 74.63,
      "step": 1850,
      "token_acc": 0.6551959114139694,
      "train_speed(iter/s)": 0.721142
    },
    {
      "epoch": 1.3681389761596747,
      "eval_loss": 0.6679942607879639,
      "eval_runtime": 93.3503,
      "eval_samples_per_second": 74.933,
      "eval_steps_per_second": 0.589,
      "eval_token_acc": 0.6300302199895188,
      "step": 1850
    },
    {
      "epoch": 1.371835150619109,
      "grad_norm": 1.1238157971359715,
      "learning_rate": 4.482998632529414e-06,
      "loss": 1.0442536354064942,
      "memory(GiB)": 74.63,
      "step": 1855,
      "token_acc": 0.6386843397152675,
      "train_speed(iter/s)": 0.673362
    },
    {
      "epoch": 1.3755313250785437,
      "grad_norm": 0.9044341600768213,
      "learning_rate": 4.434641144944464e-06,
      "loss": 1.0640903472900392,
      "memory(GiB)": 74.63,
      "step": 1860,
      "token_acc": 0.6587333602258976,
      "train_speed(iter/s)": 0.655234
    },
    {
      "epoch": 1.3792274995379783,
      "grad_norm": 1.0166299256206919,
      "learning_rate": 4.386471467194513e-06,
      "loss": 1.0587308883666993,
      "memory(GiB)": 74.63,
      "step": 1865,
      "token_acc": 0.6148590947907772,
      "train_speed(iter/s)": 0.63915
    },
    {
      "epoch": 1.3829236739974127,
      "grad_norm": 1.2786373427724909,
      "learning_rate": 4.338491224824198e-06,
      "loss": 1.0438286781311035,
      "memory(GiB)": 74.63,
      "step": 1870,
      "token_acc": 0.6332835077229696,
      "train_speed(iter/s)": 0.625873
    },
    {
      "epoch": 1.386619848456847,
      "grad_norm": 1.0910902180920756,
      "learning_rate": 4.290702036985423e-06,
      "loss": 1.0352885246276855,
      "memory(GiB)": 74.63,
      "step": 1875,
      "token_acc": 0.6918429003021148,
      "train_speed(iter/s)": 0.610514
    },
    {
      "epoch": 1.3903160229162816,
      "grad_norm": 1.0540455114144576,
      "learning_rate": 4.243105516382732e-06,
      "loss": 1.0169889450073242,
      "memory(GiB)": 74.63,
      "step": 1880,
      "token_acc": 0.6479912544411042,
      "train_speed(iter/s)": 0.59628
    },
    {
      "epoch": 1.3940121973757162,
      "grad_norm": 1.0796012032362492,
      "learning_rate": 4.1957032692188685e-06,
      "loss": 1.0289284706115722,
      "memory(GiB)": 74.63,
      "step": 1885,
      "token_acc": 0.6304772536980184,
      "train_speed(iter/s)": 0.584845
    },
    {
      "epoch": 1.3977083718351506,
      "grad_norm": 0.9497813177866403,
      "learning_rate": 4.148496895140586e-06,
      "loss": 1.0058039665222167,
      "memory(GiB)": 74.63,
      "step": 1890,
      "token_acc": 0.6662360034453058,
      "train_speed(iter/s)": 0.572483
    },
    {
      "epoch": 1.401404546294585,
      "grad_norm": 0.9994791403674819,
      "learning_rate": 4.101487987184658e-06,
      "loss": 1.0271056175231934,
      "memory(GiB)": 74.63,
      "step": 1895,
      "token_acc": 0.7174721189591078,
      "train_speed(iter/s)": 0.559822
    },
    {
      "epoch": 1.4051007207540196,
      "grad_norm": 0.9675552310253457,
      "learning_rate": 4.054678131724128e-06,
      "loss": 1.0421775817871093,
      "memory(GiB)": 74.63,
      "step": 1900,
      "token_acc": 0.6403071017274472,
      "train_speed(iter/s)": 0.549398
    },
    {
      "epoch": 1.4051007207540196,
      "eval_loss": 0.6665124893188477,
      "eval_runtime": 92.5325,
      "eval_samples_per_second": 75.595,
      "eval_steps_per_second": 0.594,
      "eval_token_acc": 0.6305912175031224,
      "step": 1900
    },
    {
      "epoch": 1.4087968952134542,
      "grad_norm": 0.9383388424277262,
      "learning_rate": 4.008068908414764e-06,
      "loss": 1.0390195846557617,
      "memory(GiB)": 74.63,
      "step": 1905,
      "token_acc": 0.636108220603538,
      "train_speed(iter/s)": 0.522161
    },
    {
      "epoch": 1.4124930696728886,
      "grad_norm": 1.0404355020365603,
      "learning_rate": 3.961661890141756e-06,
      "loss": 1.064806842803955,
      "memory(GiB)": 74.63,
      "step": 1910,
      "token_acc": 0.5955159705159705,
      "train_speed(iter/s)": 0.512861
    },
    {
      "epoch": 1.416189244132323,
      "grad_norm": 1.1641858092814779,
      "learning_rate": 3.91545864296665e-06,
      "loss": 1.0407491683959962,
      "memory(GiB)": 74.63,
      "step": 1915,
      "token_acc": 0.6579710144927536,
      "train_speed(iter/s)": 0.502749
    },
    {
      "epoch": 1.4198854185917575,
      "grad_norm": 0.9981716234289997,
      "learning_rate": 3.8694607260744745e-06,
      "loss": 1.0334474563598632,
      "memory(GiB)": 74.63,
      "step": 1920,
      "token_acc": 0.6448382126348228,
      "train_speed(iter/s)": 0.494436
    },
    {
      "epoch": 1.4235815930511921,
      "grad_norm": 1.0999406567886463,
      "learning_rate": 3.8236696917211365e-06,
      "loss": 1.0606246948242188,
      "memory(GiB)": 74.63,
      "step": 1925,
      "token_acc": 0.6300940438871473,
      "train_speed(iter/s)": 0.48651
    },
    {
      "epoch": 1.4272777675106265,
      "grad_norm": 1.0161660727647654,
      "learning_rate": 3.7780870851810515e-06,
      "loss": 1.076219654083252,
      "memory(GiB)": 74.63,
      "step": 1930,
      "token_acc": 0.6260296540362438,
      "train_speed(iter/s)": 0.477741
    },
    {
      "epoch": 1.430973941970061,
      "grad_norm": 0.9703902428924409,
      "learning_rate": 3.7327144446949716e-06,
      "loss": 1.0812992095947265,
      "memory(GiB)": 74.63,
      "step": 1935,
      "token_acc": 0.630064591896653,
      "train_speed(iter/s)": 0.470034
    },
    {
      "epoch": 1.4346701164294955,
      "grad_norm": 1.0947535810008933,
      "learning_rate": 3.687553301418092e-06,
      "loss": 1.0244592666625976,
      "memory(GiB)": 74.63,
      "step": 1940,
      "token_acc": 0.6301992310380986,
      "train_speed(iter/s)": 0.463221
    },
    {
      "epoch": 1.43836629088893,
      "grad_norm": 1.0200917528662774,
      "learning_rate": 3.6426051793683724e-06,
      "loss": 1.0360092163085937,
      "memory(GiB)": 74.63,
      "step": 1945,
      "token_acc": 0.6446078431372549,
      "train_speed(iter/s)": 0.45531
    },
    {
      "epoch": 1.4420624653483645,
      "grad_norm": 0.9670618590123606,
      "learning_rate": 3.5978715953751207e-06,
      "loss": 1.0297866821289063,
      "memory(GiB)": 74.63,
      "step": 1950,
      "token_acc": 0.6481696687972109,
      "train_speed(iter/s)": 0.448099
    },
    {
      "epoch": 1.4420624653483645,
      "eval_loss": 0.6662415862083435,
      "eval_runtime": 87.5872,
      "eval_samples_per_second": 79.863,
      "eval_steps_per_second": 0.628,
      "eval_token_acc": 0.6309225061582752,
      "step": 1950
    },
    {
      "epoch": 1.4457586398077988,
      "grad_norm": 0.9880600888670725,
      "learning_rate": 3.5533540590277882e-06,
      "loss": 1.0223572731018067,
      "memory(GiB)": 74.63,
      "step": 1955,
      "token_acc": 0.6359920144500428,
      "train_speed(iter/s)": 0.430514
    },
    {
      "epoch": 1.4494548142672334,
      "grad_norm": 0.9593918073057777,
      "learning_rate": 3.509054072625031e-06,
      "loss": 1.0360115051269532,
      "memory(GiB)": 74.63,
      "step": 1960,
      "token_acc": 0.6581899775617053,
      "train_speed(iter/s)": 0.424799
    },
    {
      "epoch": 1.453150988726668,
      "grad_norm": 1.0289280788083641,
      "learning_rate": 3.4649731311240276e-06,
      "loss": 1.0378742218017578,
      "memory(GiB)": 74.63,
      "step": 1965,
      "token_acc": 0.6424075531077892,
      "train_speed(iter/s)": 0.418454
    },
    {
      "epoch": 1.4568471631861024,
      "grad_norm": 1.053788067984888,
      "learning_rate": 3.4211127220900107e-06,
      "loss": 1.0713199615478515,
      "memory(GiB)": 74.63,
      "step": 1970,
      "token_acc": 0.632213608957795,
      "train_speed(iter/s)": 0.412536
    },
    {
      "epoch": 1.4605433376455368,
      "grad_norm": 1.180153902117692,
      "learning_rate": 3.377474325646074e-06,
      "loss": 1.0560644149780274,
      "memory(GiB)": 74.63,
      "step": 1975,
      "token_acc": 0.641423703142749,
      "train_speed(iter/s)": 0.407398
    },
    {
      "epoch": 1.4642395121049714,
      "grad_norm": 0.8918348376917337,
      "learning_rate": 3.334059414423233e-06,
      "loss": 1.055532169342041,
      "memory(GiB)": 74.63,
      "step": 1980,
      "token_acc": 0.668722786647315,
      "train_speed(iter/s)": 0.401897
    },
    {
      "epoch": 1.4679356865644058,
      "grad_norm": 1.109026709845534,
      "learning_rate": 3.2908694535107144e-06,
      "loss": 1.027819538116455,
      "memory(GiB)": 74.63,
      "step": 1985,
      "token_acc": 0.661387220098307,
      "train_speed(iter/s)": 0.396281
    },
    {
      "epoch": 1.4716318610238404,
      "grad_norm": 1.0886246897973584,
      "learning_rate": 3.247905900406523e-06,
      "loss": 1.0191631317138672,
      "memory(GiB)": 74.63,
      "step": 1990,
      "token_acc": 0.6097883597883598,
      "train_speed(iter/s)": 0.391566
    },
    {
      "epoch": 1.4753280354832747,
      "grad_norm": 1.0630977460263966,
      "learning_rate": 3.2051702049682554e-06,
      "loss": 1.042071533203125,
      "memory(GiB)": 74.63,
      "step": 1995,
      "token_acc": 0.6236017897091722,
      "train_speed(iter/s)": 0.386682
    },
    {
      "epoch": 1.4790242099427093,
      "grad_norm": 1.1953007407214893,
      "learning_rate": 3.162663809364178e-06,
      "loss": 1.0401007652282714,
      "memory(GiB)": 74.63,
      "step": 2000,
      "token_acc": 0.6173344235486509,
      "train_speed(iter/s)": 0.381535
    },
    {
      "epoch": 1.4790242099427093,
      "eval_loss": 0.6649311184883118,
      "eval_runtime": 83.4819,
      "eval_samples_per_second": 83.791,
      "eval_steps_per_second": 0.659,
      "eval_token_acc": 0.63089018531387,
      "step": 2000
    },
    {
      "epoch": 1.4827203844021437,
      "grad_norm": 1.0030060203161786,
      "learning_rate": 3.120388148024548e-06,
      "loss": 1.0528248786926269,
      "memory(GiB)": 74.63,
      "step": 2005,
      "token_acc": 0.6302038823098522,
      "train_speed(iter/s)": 0.368939
    },
    {
      "epoch": 1.4864165588615783,
      "grad_norm": 1.1306385027348749,
      "learning_rate": 3.0783446475932145e-06,
      "loss": 1.061046028137207,
      "memory(GiB)": 74.63,
      "step": 2010,
      "token_acc": 0.6473043478260869,
      "train_speed(iter/s)": 0.364909
    },
    {
      "epoch": 1.4901127333210127,
      "grad_norm": 1.0935000761259253,
      "learning_rate": 3.036534726879473e-06,
      "loss": 1.0255512237548827,
      "memory(GiB)": 74.63,
      "step": 2015,
      "token_acc": 0.65625,
      "train_speed(iter/s)": 0.360903
    },
    {
      "epoch": 1.4938089077804473,
      "grad_norm": 1.088331528861988,
      "learning_rate": 2.9949597968101883e-06,
      "loss": 1.0589797973632813,
      "memory(GiB)": 74.63,
      "step": 2020,
      "token_acc": 0.6325940212150434,
      "train_speed(iter/s)": 0.356624
    },
    {
      "epoch": 1.4975050822398817,
      "grad_norm": 1.0677052287012947,
      "learning_rate": 2.953621260382171e-06,
      "loss": 1.0519143104553224,
      "memory(GiB)": 74.63,
      "step": 2025,
      "token_acc": 0.6626557799742158,
      "train_speed(iter/s)": 0.352723
    },
    {
      "epoch": 1.5012012566993163,
      "grad_norm": 0.9383180241618552,
      "learning_rate": 2.9125205126148535e-06,
      "loss": 1.031491470336914,
      "memory(GiB)": 74.63,
      "step": 2030,
      "token_acc": 0.6123364485981309,
      "train_speed(iter/s)": 0.349069
    },
    {
      "epoch": 1.5048974311587506,
      "grad_norm": 1.0487719308291952,
      "learning_rate": 2.871658940503188e-06,
      "loss": 1.024942398071289,
      "memory(GiB)": 74.63,
      "step": 2035,
      "token_acc": 0.6477366255144033,
      "train_speed(iter/s)": 0.345173
    },
    {
      "epoch": 1.5085936056181852,
      "grad_norm": 1.0789502013849968,
      "learning_rate": 2.831037922970855e-06,
      "loss": 1.0276554107666016,
      "memory(GiB)": 74.63,
      "step": 2040,
      "token_acc": 0.6695604991861096,
      "train_speed(iter/s)": 0.341604
    },
    {
      "epoch": 1.5122897800776198,
      "grad_norm": 1.0851618366990563,
      "learning_rate": 2.7906588308237228e-06,
      "loss": 1.027616596221924,
      "memory(GiB)": 74.63,
      "step": 2045,
      "token_acc": 0.7097625329815304,
      "train_speed(iter/s)": 0.338222
    },
    {
      "epoch": 1.5159859545370542,
      "grad_norm": 0.9179924796471817,
      "learning_rate": 2.7505230267036032e-06,
      "loss": 1.0497385025024415,
      "memory(GiB)": 74.63,
      "step": 2050,
      "token_acc": 0.5937649880095923,
      "train_speed(iter/s)": 0.334489
    },
    {
      "epoch": 1.5159859545370542,
      "eval_loss": 0.6642535328865051,
      "eval_runtime": 85.9904,
      "eval_samples_per_second": 81.346,
      "eval_steps_per_second": 0.64,
      "eval_token_acc": 0.6313195908181098,
      "step": 2050
    },
    {
      "epoch": 1.5196821289964886,
      "grad_norm": 1.0681296921147372,
      "learning_rate": 2.7106318650422447e-06,
      "loss": 1.0099181175231933,
      "memory(GiB)": 74.63,
      "step": 2055,
      "token_acc": 0.6372694090953931,
      "train_speed(iter/s)": 0.325208
    },
    {
      "epoch": 1.5233783034559232,
      "grad_norm": 1.1164983354073834,
      "learning_rate": 2.6709866920156434e-06,
      "loss": 1.0027360916137695,
      "memory(GiB)": 74.63,
      "step": 2060,
      "token_acc": 0.631484794275492,
      "train_speed(iter/s)": 0.321919
    },
    {
      "epoch": 1.5270744779153576,
      "grad_norm": 0.9417253538259095,
      "learning_rate": 2.6315888454986017e-06,
      "loss": 1.0374462127685546,
      "memory(GiB)": 74.63,
      "step": 2065,
      "token_acc": 0.6671586715867158,
      "train_speed(iter/s)": 0.319024
    },
    {
      "epoch": 1.530770652374792,
      "grad_norm": 1.1095932914113171,
      "learning_rate": 2.5924396550195986e-06,
      "loss": 1.03175687789917,
      "memory(GiB)": 74.63,
      "step": 2070,
      "token_acc": 0.6316007454959619,
      "train_speed(iter/s)": 0.315819
    },
    {
      "epoch": 1.5344668268342265,
      "grad_norm": 1.0582702932147185,
      "learning_rate": 2.5535404417159002e-06,
      "loss": 1.0430908203125,
      "memory(GiB)": 74.63,
      "step": 2075,
      "token_acc": 0.6477673325499412,
      "train_speed(iter/s)": 0.312805
    },
    {
      "epoch": 1.5381630012936611,
      "grad_norm": 1.0515415830247143,
      "learning_rate": 2.514892518288988e-06,
      "loss": 1.0108471870422364,
      "memory(GiB)": 74.63,
      "step": 2080,
      "token_acc": 0.6291390728476821,
      "train_speed(iter/s)": 0.310115
    },
    {
      "epoch": 1.5418591757530955,
      "grad_norm": 1.018793664843126,
      "learning_rate": 2.4764971889602705e-06,
      "loss": 1.0460142135620116,
      "memory(GiB)": 74.63,
      "step": 2085,
      "token_acc": 0.6321537789427698,
      "train_speed(iter/s)": 0.307239
    },
    {
      "epoch": 1.5455553502125299,
      "grad_norm": 1.0684231311720556,
      "learning_rate": 2.4383557494270483e-06,
      "loss": 1.03402099609375,
      "memory(GiB)": 74.63,
      "step": 2090,
      "token_acc": 0.6098130841121495,
      "train_speed(iter/s)": 0.304401
    },
    {
      "epoch": 1.5492515246719645,
      "grad_norm": 1.1947182692900764,
      "learning_rate": 2.400469486818803e-06,
      "loss": 1.0426679611206056,
      "memory(GiB)": 74.63,
      "step": 2095,
      "token_acc": 0.6819553409776705,
      "train_speed(iter/s)": 0.301883
    },
    {
      "epoch": 1.552947699131399,
      "grad_norm": 1.1961503070894741,
      "learning_rate": 2.3628396796537588e-06,
      "loss": 1.0395529747009278,
      "memory(GiB)": 74.63,
      "step": 2100,
      "token_acc": 0.6641014033499321,
      "train_speed(iter/s)": 0.299223
    },
    {
      "epoch": 1.552947699131399,
      "eval_loss": 0.6638895273208618,
      "eval_runtime": 88.4322,
      "eval_samples_per_second": 79.1,
      "eval_steps_per_second": 0.622,
      "eval_token_acc": 0.6315920093638103,
      "step": 2100
    },
    {
      "epoch": 1.5566438735908334,
      "grad_norm": 1.0207020501497954,
      "learning_rate": 2.325467597795745e-06,
      "loss": 1.0622333526611327,
      "memory(GiB)": 74.63,
      "step": 2105,
      "token_acc": 0.638814317673378,
      "train_speed(iter/s)": 0.291998
    },
    {
      "epoch": 1.5603400480502678,
      "grad_norm": 1.1172734543264464,
      "learning_rate": 2.2883545024113263e-06,
      "loss": 1.0403221130371094,
      "memory(GiB)": 74.63,
      "step": 2110,
      "token_acc": 0.6622971285892634,
      "train_speed(iter/s)": 0.289437
    },
    {
      "epoch": 1.5640362225097024,
      "grad_norm": 1.0571335154576122,
      "learning_rate": 2.251501645927253e-06,
      "loss": 1.0463993072509765,
      "memory(GiB)": 74.63,
      "step": 2115,
      "token_acc": 0.636986301369863,
      "train_speed(iter/s)": 0.28714
    },
    {
      "epoch": 1.567732396969137,
      "grad_norm": 0.9556270442029375,
      "learning_rate": 2.2149102719882044e-06,
      "loss": 1.0251903533935547,
      "memory(GiB)": 74.63,
      "step": 2120,
      "token_acc": 0.647495361781076,
      "train_speed(iter/s)": 0.284896
    },
    {
      "epoch": 1.5714285714285714,
      "grad_norm": 1.041918735454562,
      "learning_rate": 2.178581615414802e-06,
      "loss": 1.0483660697937012,
      "memory(GiB)": 74.63,
      "step": 2125,
      "token_acc": 0.5842217484008528,
      "train_speed(iter/s)": 0.282449
    },
    {
      "epoch": 1.5751247458880058,
      "grad_norm": 1.0827410972952385,
      "learning_rate": 2.1425169021619518e-06,
      "loss": 1.0664111137390138,
      "memory(GiB)": 74.63,
      "step": 2130,
      "token_acc": 0.6472742066720911,
      "train_speed(iter/s)": 0.280246
    },
    {
      "epoch": 1.5788209203474404,
      "grad_norm": 1.0343519334837508,
      "learning_rate": 2.106717349277475e-06,
      "loss": 1.0448074340820312,
      "memory(GiB)": 74.63,
      "step": 2135,
      "token_acc": 0.6223404255319149,
      "train_speed(iter/s)": 0.278222
    },
    {
      "epoch": 1.582517094806875,
      "grad_norm": 0.9536359374215565,
      "learning_rate": 2.0711841648610254e-06,
      "loss": 1.0621306419372558,
      "memory(GiB)": 74.63,
      "step": 2140,
      "token_acc": 0.6342119419042496,
      "train_speed(iter/s)": 0.276006
    },
    {
      "epoch": 1.5862132692663093,
      "grad_norm": 1.072455338512947,
      "learning_rate": 2.03591854802333e-06,
      "loss": 1.0556835174560546,
      "memory(GiB)": 74.63,
      "step": 2145,
      "token_acc": 0.7222898903775883,
      "train_speed(iter/s)": 0.27386
    },
    {
      "epoch": 1.5899094437257437,
      "grad_norm": 1.0210760479008887,
      "learning_rate": 2.0009216888457206e-06,
      "loss": 1.0253107070922851,
      "memory(GiB)": 74.63,
      "step": 2150,
      "token_acc": 0.6356216994719155,
      "train_speed(iter/s)": 0.271885
    },
    {
      "epoch": 1.5899094437257437,
      "eval_loss": 0.6611568927764893,
      "eval_runtime": 89.4271,
      "eval_samples_per_second": 78.22,
      "eval_steps_per_second": 0.615,
      "eval_token_acc": 0.6316070154701413,
      "step": 2150
    },
    {
      "epoch": 1.5936056181851783,
      "grad_norm": 1.062555004377403,
      "learning_rate": 1.966194768339974e-06,
      "loss": 1.049751091003418,
      "memory(GiB)": 74.63,
      "step": 2155,
      "token_acc": 0.6423422284052106,
      "train_speed(iter/s)": 0.266286
    },
    {
      "epoch": 1.597301792644613,
      "grad_norm": 0.8629319967495109,
      "learning_rate": 1.931738958408457e-06,
      "loss": 1.0435371398925781,
      "memory(GiB)": 74.63,
      "step": 2160,
      "token_acc": 0.6290619251992643,
      "train_speed(iter/s)": 0.264247
    },
    {
      "epoch": 1.6009979671040473,
      "grad_norm": 0.955539932162413,
      "learning_rate": 1.8975554218045733e-06,
      "loss": 1.0308834075927735,
      "memory(GiB)": 74.63,
      "step": 2165,
      "token_acc": 0.6610537751222162,
      "train_speed(iter/s)": 0.262351
    },
    {
      "epoch": 1.6046941415634817,
      "grad_norm": 0.9624917837200193,
      "learning_rate": 1.8636453120935428e-06,
      "loss": 1.0461854934692383,
      "memory(GiB)": 74.63,
      "step": 2170,
      "token_acc": 0.7152838427947599,
      "train_speed(iter/s)": 0.260619
    },
    {
      "epoch": 1.6083903160229163,
      "grad_norm": 1.1677655720128766,
      "learning_rate": 1.8300097736134482e-06,
      "loss": 1.0363172531127929,
      "memory(GiB)": 74.63,
      "step": 2175,
      "token_acc": 0.6848798869524259,
      "train_speed(iter/s)": 0.258828
    },
    {
      "epoch": 1.6120864904823509,
      "grad_norm": 1.060280622494465,
      "learning_rate": 1.796649941436638e-06,
      "loss": 1.0246556282043457,
      "memory(GiB)": 74.63,
      "step": 2180,
      "token_acc": 0.6469820554649266,
      "train_speed(iter/s)": 0.256928
    },
    {
      "epoch": 1.6157826649417852,
      "grad_norm": 0.9704555618707196,
      "learning_rate": 1.7635669413314082e-06,
      "loss": 1.0577556610107421,
      "memory(GiB)": 74.63,
      "step": 2185,
      "token_acc": 0.698159509202454,
      "train_speed(iter/s)": 0.255252
    },
    {
      "epoch": 1.6194788394012196,
      "grad_norm": 0.9786880620172256,
      "learning_rate": 1.7307618897240274e-06,
      "loss": 1.0526361465454102,
      "memory(GiB)": 74.63,
      "step": 2190,
      "token_acc": 0.6385869565217391,
      "train_speed(iter/s)": 0.253488
    },
    {
      "epoch": 1.6231750138606542,
      "grad_norm": 0.9744613679129237,
      "learning_rate": 1.6982358936610454e-06,
      "loss": 1.075265598297119,
      "memory(GiB)": 74.63,
      "step": 2195,
      "token_acc": 0.6133072407045009,
      "train_speed(iter/s)": 0.251735
    },
    {
      "epoch": 1.6268711883200888,
      "grad_norm": 1.0120755932892964,
      "learning_rate": 1.6659900507719406e-06,
      "loss": 1.064041519165039,
      "memory(GiB)": 74.63,
      "step": 2200,
      "token_acc": 0.648406731113498,
      "train_speed(iter/s)": 0.250141
    },
    {
      "epoch": 1.6268711883200888,
      "eval_loss": 0.6599572896957397,
      "eval_runtime": 90.9305,
      "eval_samples_per_second": 76.927,
      "eval_steps_per_second": 0.605,
      "eval_token_acc": 0.6317178297938161,
      "step": 2200
    },
    {
      "epoch": 1.6305673627795232,
      "grad_norm": 1.0770018414163383,
      "learning_rate": 1.6340254492320873e-06,
      "loss": 1.0508115768432618,
      "memory(GiB)": 74.63,
      "step": 2205,
      "token_acc": 0.6418808091853472,
      "train_speed(iter/s)": 0.245446
    },
    {
      "epoch": 1.6342635372389576,
      "grad_norm": 1.0511841490808227,
      "learning_rate": 1.6023431677260215e-06,
      "loss": 1.0454177856445312,
      "memory(GiB)": 74.63,
      "step": 2210,
      "token_acc": 0.6532779316712835,
      "train_speed(iter/s)": 0.243859
    },
    {
      "epoch": 1.6379597116983922,
      "grad_norm": 0.9098679876928407,
      "learning_rate": 1.570944275411046e-06,
      "loss": 1.0668581962585448,
      "memory(GiB)": 74.63,
      "step": 2215,
      "token_acc": 0.6121688741721855,
      "train_speed(iter/s)": 0.242235
    },
    {
      "epoch": 1.6416558861578268,
      "grad_norm": 1.0127053695015762,
      "learning_rate": 1.5398298318811467e-06,
      "loss": 1.0175441741943358,
      "memory(GiB)": 74.63,
      "step": 2220,
      "token_acc": 0.6991780821917808,
      "train_speed(iter/s)": 0.240782
    },
    {
      "epoch": 1.6453520606172611,
      "grad_norm": 1.1031573706590774,
      "learning_rate": 1.5090008871312433e-06,
      "loss": 1.0165956497192383,
      "memory(GiB)": 74.63,
      "step": 2225,
      "token_acc": 0.6685121107266436,
      "train_speed(iter/s)": 0.23932
    },
    {
      "epoch": 1.6490482350766955,
      "grad_norm": 1.0502782153731651,
      "learning_rate": 1.4784584815217452e-06,
      "loss": 1.0456388473510743,
      "memory(GiB)": 74.63,
      "step": 2230,
      "token_acc": 0.6672802577082375,
      "train_speed(iter/s)": 0.237824
    },
    {
      "epoch": 1.65274440953613,
      "grad_norm": 1.003637672944472,
      "learning_rate": 1.448203645743449e-06,
      "loss": 1.0287794113159179,
      "memory(GiB)": 74.63,
      "step": 2235,
      "token_acc": 0.6663223140495868,
      "train_speed(iter/s)": 0.236377
    },
    {
      "epoch": 1.6564405839955647,
      "grad_norm": 1.037599542215698,
      "learning_rate": 1.4182374007827605e-06,
      "loss": 1.0127573013305664,
      "memory(GiB)": 74.63,
      "step": 2240,
      "token_acc": 0.6325656132833423,
      "train_speed(iter/s)": 0.235012
    },
    {
      "epoch": 1.660136758454999,
      "grad_norm": 0.9940434532315588,
      "learning_rate": 1.3885607578872295e-06,
      "loss": 1.0367406845092773,
      "memory(GiB)": 74.63,
      "step": 2245,
      "token_acc": 0.6187350835322196,
      "train_speed(iter/s)": 0.233574
    },
    {
      "epoch": 1.6638329329144335,
      "grad_norm": 0.9200899712617193,
      "learning_rate": 1.3591747185314342e-06,
      "loss": 1.0550609588623048,
      "memory(GiB)": 74.63,
      "step": 2250,
      "token_acc": 0.6650768415474297,
      "train_speed(iter/s)": 0.232175
    },
    {
      "epoch": 1.6638329329144335,
      "eval_loss": 0.6586793661117554,
      "eval_runtime": 87.5544,
      "eval_samples_per_second": 79.893,
      "eval_steps_per_second": 0.628,
      "eval_token_acc": 0.6320167976045638,
      "step": 2250
    },
    {
      "epoch": 1.667529107373868,
      "grad_norm": 1.0426265291319847,
      "learning_rate": 1.3300802743831786e-06,
      "loss": 1.0567312240600586,
      "memory(GiB)": 74.63,
      "step": 2255,
      "token_acc": 0.6444471182769823,
      "train_speed(iter/s)": 0.228232
    },
    {
      "epoch": 1.6712252818333027,
      "grad_norm": 1.1036330750940702,
      "learning_rate": 1.3012784072700335e-06,
      "loss": 1.0163141250610352,
      "memory(GiB)": 74.63,
      "step": 2260,
      "token_acc": 0.6361031518624641,
      "train_speed(iter/s)": 0.226993
    },
    {
      "epoch": 1.674921456292737,
      "grad_norm": 1.034827646235815,
      "learning_rate": 1.272770089146199e-06,
      "loss": 1.042106819152832,
      "memory(GiB)": 74.63,
      "step": 2265,
      "token_acc": 0.6615910503418272,
      "train_speed(iter/s)": 0.225676
    },
    {
      "epoch": 1.6786176307521714,
      "grad_norm": 0.9379338873318531,
      "learning_rate": 1.2445562820597035e-06,
      "loss": 1.056378173828125,
      "memory(GiB)": 74.63,
      "step": 2270,
      "token_acc": 0.6658767772511849,
      "train_speed(iter/s)": 0.22441
    },
    {
      "epoch": 1.682313805211606,
      "grad_norm": 1.018955540383726,
      "learning_rate": 1.2166379381199423e-06,
      "loss": 1.024850082397461,
      "memory(GiB)": 74.63,
      "step": 2275,
      "token_acc": 0.6339022954679223,
      "train_speed(iter/s)": 0.223236
    },
    {
      "epoch": 1.6860099796710406,
      "grad_norm": 0.9387152975257087,
      "learning_rate": 1.1890159994655425e-06,
      "loss": 1.0364057540893554,
      "memory(GiB)": 74.63,
      "step": 2280,
      "token_acc": 0.6378887070376432,
      "train_speed(iter/s)": 0.221993
    },
    {
      "epoch": 1.689706154130475,
      "grad_norm": 0.9517285751951058,
      "learning_rate": 1.1616913982325827e-06,
      "loss": 1.0173322677612304,
      "memory(GiB)": 74.63,
      "step": 2285,
      "token_acc": 0.63408913213448,
      "train_speed(iter/s)": 0.220748
    },
    {
      "epoch": 1.6934023285899094,
      "grad_norm": 1.1148106388917103,
      "learning_rate": 1.1346650565231165e-06,
      "loss": 1.0427886962890625,
      "memory(GiB)": 74.63,
      "step": 2290,
      "token_acc": 0.640251572327044,
      "train_speed(iter/s)": 0.219605
    },
    {
      "epoch": 1.697098503049344,
      "grad_norm": 1.1256757463038873,
      "learning_rate": 1.1079378863740686e-06,
      "loss": 1.0264497756958009,
      "memory(GiB)": 74.63,
      "step": 2295,
      "token_acc": 0.6556603773584906,
      "train_speed(iter/s)": 0.21844
    },
    {
      "epoch": 1.7007946775087786,
      "grad_norm": 1.0466875757106615,
      "learning_rate": 1.0815107897264555e-06,
      "loss": 1.0546932220458984,
      "memory(GiB)": 74.63,
      "step": 2300,
      "token_acc": 0.6179956896551724,
      "train_speed(iter/s)": 0.217293
    },
    {
      "epoch": 1.7007946775087786,
      "eval_loss": 0.6585622429847717,
      "eval_runtime": 86.3947,
      "eval_samples_per_second": 80.966,
      "eval_steps_per_second": 0.637,
      "eval_token_acc": 0.6323053765724668,
      "step": 2300
    },
    {
      "epoch": 1.704490851968213,
      "grad_norm": 0.9844022346926911,
      "learning_rate": 1.0553846583949424e-06,
      "loss": 1.0470151901245117,
      "memory(GiB)": 74.63,
      "step": 2305,
      "token_acc": 0.638003355704698,
      "train_speed(iter/s)": 0.213982
    },
    {
      "epoch": 1.7081870264276473,
      "grad_norm": 1.002842594215214,
      "learning_rate": 1.0295603740377591e-06,
      "loss": 1.0518400192260742,
      "memory(GiB)": 74.63,
      "step": 2310,
      "token_acc": 0.6883333333333334,
      "train_speed(iter/s)": 0.212941
    },
    {
      "epoch": 1.711883200887082,
      "grad_norm": 0.996843923558558,
      "learning_rate": 1.0040388081269336e-06,
      "loss": 1.028696632385254,
      "memory(GiB)": 74.63,
      "step": 2315,
      "token_acc": 0.6513243595310465,
      "train_speed(iter/s)": 0.211922
    },
    {
      "epoch": 1.7155793753465165,
      "grad_norm": 1.0304373058907095,
      "learning_rate": 9.788208219188932e-07,
      "loss": 1.0363618850708007,
      "memory(GiB)": 74.63,
      "step": 2320,
      "token_acc": 0.6015075376884422,
      "train_speed(iter/s)": 0.210816
    },
    {
      "epoch": 1.7192755498059509,
      "grad_norm": 1.0716438374724575,
      "learning_rate": 9.539072664254e-07,
      "loss": 1.065016269683838,
      "memory(GiB)": 74.63,
      "step": 2325,
      "token_acc": 0.6122448979591837,
      "train_speed(iter/s)": 0.20983
    },
    {
      "epoch": 1.7229717242653853,
      "grad_norm": 1.044849619522368,
      "learning_rate": 9.292989823848242e-07,
      "loss": 1.0461166381835938,
      "memory(GiB)": 74.63,
      "step": 2330,
      "token_acc": 0.6681818181818182,
      "train_speed(iter/s)": 0.208847
    },
    {
      "epoch": 1.7266678987248198,
      "grad_norm": 0.9749773034536726,
      "learning_rate": 9.049968002337805e-07,
      "loss": 1.0064781188964844,
      "memory(GiB)": 74.63,
      "step": 2335,
      "token_acc": 0.6454869358669834,
      "train_speed(iter/s)": 0.207824
    },
    {
      "epoch": 1.7303640731842544,
      "grad_norm": 1.0478755901703891,
      "learning_rate": 8.810015400790994e-07,
      "loss": 1.0341422080993652,
      "memory(GiB)": 74.63,
      "step": 2340,
      "token_acc": 0.6453608247422681,
      "train_speed(iter/s)": 0.20687
    },
    {
      "epoch": 1.7340602476436888,
      "grad_norm": 1.161076200769703,
      "learning_rate": 8.573140116701573e-07,
      "loss": 1.031747531890869,
      "memory(GiB)": 74.63,
      "step": 2345,
      "token_acc": 0.633889077917659,
      "train_speed(iter/s)": 0.205935
    },
    {
      "epoch": 1.7377564221031232,
      "grad_norm": 1.0465828745420171,
      "learning_rate": 8.339350143715452e-07,
      "loss": 1.026121234893799,
      "memory(GiB)": 74.63,
      "step": 2350,
      "token_acc": 0.6303341902313625,
      "train_speed(iter/s)": 0.204941
    },
    {
      "epoch": 1.7377564221031232,
      "eval_loss": 0.6579257845878601,
      "eval_runtime": 85.2135,
      "eval_samples_per_second": 82.088,
      "eval_steps_per_second": 0.645,
      "eval_token_acc": 0.6323030679407236,
      "step": 2350
    },
    {
      "epoch": 1.7414525965625578,
      "grad_norm": 0.9803139837060567,
      "learning_rate": 8.108653371360897e-07,
      "loss": 1.0249688148498535,
      "memory(GiB)": 74.63,
      "step": 2355,
      "token_acc": 0.6329644032306312,
      "train_speed(iter/s)": 0.202068
    },
    {
      "epoch": 1.7451487710219924,
      "grad_norm": 1.0773968420983469,
      "learning_rate": 7.881057584782448e-07,
      "loss": 1.014153003692627,
      "memory(GiB)": 74.63,
      "step": 2360,
      "token_acc": 0.6533575317604355,
      "train_speed(iter/s)": 0.201155
    },
    {
      "epoch": 1.7488449454814268,
      "grad_norm": 1.0060807449724751,
      "learning_rate": 7.656570464477997e-07,
      "loss": 1.041685199737549,
      "memory(GiB)": 74.63,
      "step": 2365,
      "token_acc": 0.6260771824653428,
      "train_speed(iter/s)": 0.20029
    },
    {
      "epoch": 1.7525411199408611,
      "grad_norm": 0.9990872446739557,
      "learning_rate": 7.435199586039721e-07,
      "loss": 1.025881576538086,
      "memory(GiB)": 74.63,
      "step": 2370,
      "token_acc": 0.6330558125192722,
      "train_speed(iter/s)": 0.199385
    },
    {
      "epoch": 1.7562372944002957,
      "grad_norm": 1.0713164560199164,
      "learning_rate": 7.216952419898393e-07,
      "loss": 1.0439919471740722,
      "memory(GiB)": 74.63,
      "step": 2375,
      "token_acc": 0.6618962432915921,
      "train_speed(iter/s)": 0.198497
    },
    {
      "epoch": 1.7599334688597303,
      "grad_norm": 1.0964714966010252,
      "learning_rate": 7.001836331071365e-07,
      "loss": 1.0411014556884766,
      "memory(GiB)": 74.63,
      "step": 2380,
      "token_acc": 0.6824512534818942,
      "train_speed(iter/s)": 0.197623
    },
    {
      "epoch": 1.7636296433191647,
      "grad_norm": 0.9737095253362634,
      "learning_rate": 6.789858578913877e-07,
      "loss": 1.0455976486206056,
      "memory(GiB)": 74.63,
      "step": 2385,
      "token_acc": 0.6538119252447345,
      "train_speed(iter/s)": 0.196798
    },
    {
      "epoch": 1.767325817778599,
      "grad_norm": 1.0585968573237603,
      "learning_rate": 6.581026316874184e-07,
      "loss": 1.0437522888183595,
      "memory(GiB)": 74.63,
      "step": 2390,
      "token_acc": 0.6448377581120944,
      "train_speed(iter/s)": 0.195944
    },
    {
      "epoch": 1.7710219922380337,
      "grad_norm": 0.9930747477126893,
      "learning_rate": 6.375346592252174e-07,
      "loss": 1.035786247253418,
      "memory(GiB)": 74.63,
      "step": 2395,
      "token_acc": 0.6269207129686539,
      "train_speed(iter/s)": 0.195132
    },
    {
      "epoch": 1.774718166697468,
      "grad_norm": 0.9303672570135261,
      "learning_rate": 6.17282634596148e-07,
      "loss": 1.0481432914733886,
      "memory(GiB)": 74.63,
      "step": 2400,
      "token_acc": 0.6504672897196262,
      "train_speed(iter/s)": 0.194323
    },
    {
      "epoch": 1.774718166697468,
      "eval_loss": 0.6574872136116028,
      "eval_runtime": 88.3048,
      "eval_samples_per_second": 79.214,
      "eval_steps_per_second": 0.623,
      "eval_token_acc": 0.6324069563691687,
      "step": 2400
    },
    {
      "epoch": 1.7784143411569024,
      "grad_norm": 1.0622942862025062,
      "learning_rate": 5.973472412295256e-07,
      "loss": 1.019943618774414,
      "memory(GiB)": 74.63,
      "step": 2405,
      "token_acc": 0.631666271628348,
      "train_speed(iter/s)": 0.191801
    },
    {
      "epoch": 1.782110515616337,
      "grad_norm": 1.0141126472853548,
      "learning_rate": 5.777291518695593e-07,
      "loss": 1.0454243659973144,
      "memory(GiB)": 74.63,
      "step": 2410,
      "token_acc": 0.6077097505668935,
      "train_speed(iter/s)": 0.191007
    },
    {
      "epoch": 1.7858066900757716,
      "grad_norm": 1.0733746716133248,
      "learning_rate": 5.584290285526473e-07,
      "loss": 1.036181640625,
      "memory(GiB)": 74.63,
      "step": 2415,
      "token_acc": 0.671865626874625,
      "train_speed(iter/s)": 0.190213
    },
    {
      "epoch": 1.789502864535206,
      "grad_norm": 1.011543008247962,
      "learning_rate": 5.394475225850338e-07,
      "loss": 1.0618670463562012,
      "memory(GiB)": 74.63,
      "step": 2420,
      "token_acc": 0.6783405172413793,
      "train_speed(iter/s)": 0.189455
    },
    {
      "epoch": 1.7931990389946404,
      "grad_norm": 0.9605401301883022,
      "learning_rate": 5.207852745208298e-07,
      "loss": 0.9933710098266602,
      "memory(GiB)": 74.63,
      "step": 2425,
      "token_acc": 0.6471641791044777,
      "train_speed(iter/s)": 0.188704
    },
    {
      "epoch": 1.796895213454075,
      "grad_norm": 1.1008101055992277,
      "learning_rate": 5.024429141404019e-07,
      "loss": 0.999241828918457,
      "memory(GiB)": 74.63,
      "step": 2430,
      "token_acc": 0.6457304163726182,
      "train_speed(iter/s)": 0.187948
    },
    {
      "epoch": 1.8005913879135096,
      "grad_norm": 0.935629646034127,
      "learning_rate": 4.844210604291155e-07,
      "loss": 1.018147087097168,
      "memory(GiB)": 74.63,
      "step": 2435,
      "token_acc": 0.6178369652945924,
      "train_speed(iter/s)": 0.187233
    },
    {
      "epoch": 1.804287562372944,
      "grad_norm": 0.9808937018928983,
      "learning_rate": 4.667203215564431e-07,
      "loss": 1.0448846817016602,
      "memory(GiB)": 74.63,
      "step": 2440,
      "token_acc": 0.6323092170465807,
      "train_speed(iter/s)": 0.186484
    },
    {
      "epoch": 1.8079837368323783,
      "grad_norm": 1.0392559529080805,
      "learning_rate": 4.493412948554454e-07,
      "loss": 1.0690251350402833,
      "memory(GiB)": 74.63,
      "step": 2445,
      "token_acc": 0.6409416581371545,
      "train_speed(iter/s)": 0.185763
    },
    {
      "epoch": 1.811679911291813,
      "grad_norm": 1.0661940200914148,
      "learning_rate": 4.3228456680261877e-07,
      "loss": 1.0110756874084472,
      "memory(GiB)": 74.63,
      "step": 2450,
      "token_acc": 0.649331352154532,
      "train_speed(iter/s)": 0.185079
    },
    {
      "epoch": 1.811679911291813,
      "eval_loss": 0.6571330428123474,
      "eval_runtime": 89.3337,
      "eval_samples_per_second": 78.302,
      "eval_steps_per_second": 0.616,
      "eval_token_acc": 0.6325177706928434,
      "step": 2450
    },
    {
      "epoch": 1.8153760857512475,
      "grad_norm": 0.9674903681690532,
      "learning_rate": 4.155507129980907e-07,
      "loss": 1.0614801406860352,
      "memory(GiB)": 74.63,
      "step": 2455,
      "token_acc": 0.6478157805621402,
      "train_speed(iter/s)": 0.182858
    },
    {
      "epoch": 1.819072260210682,
      "grad_norm": 1.023357784734463,
      "learning_rate": 3.991402981462045e-07,
      "loss": 1.0087343215942384,
      "memory(GiB)": 74.63,
      "step": 2460,
      "token_acc": 0.6711140760507005,
      "train_speed(iter/s)": 0.182142
    },
    {
      "epoch": 1.8227684346701163,
      "grad_norm": 1.1735912820708456,
      "learning_rate": 3.8305387603646324e-07,
      "loss": 1.0243083953857421,
      "memory(GiB)": 74.63,
      "step": 2465,
      "token_acc": 0.6599799398194583,
      "train_speed(iter/s)": 0.181445
    },
    {
      "epoch": 1.8264646091295509,
      "grad_norm": 1.0193068857696008,
      "learning_rate": 3.6729198952483725e-07,
      "loss": 1.032374095916748,
      "memory(GiB)": 74.63,
      "step": 2470,
      "token_acc": 0.6700460829493088,
      "train_speed(iter/s)": 0.180793
    },
    {
      "epoch": 1.8301607835889855,
      "grad_norm": 0.989197160358902,
      "learning_rate": 3.5185517051544494e-07,
      "loss": 1.053987693786621,
      "memory(GiB)": 74.63,
      "step": 2475,
      "token_acc": 0.6859160781055256,
      "train_speed(iter/s)": 0.180141
    },
    {
      "epoch": 1.8338569580484199,
      "grad_norm": 1.0596386275791907,
      "learning_rate": 3.367439399426087e-07,
      "loss": 1.0508078575134276,
      "memory(GiB)": 74.63,
      "step": 2480,
      "token_acc": 0.6111356606274856,
      "train_speed(iter/s)": 0.179489
    },
    {
      "epoch": 1.8375531325078542,
      "grad_norm": 1.0148900997448214,
      "learning_rate": 3.219588077532687e-07,
      "loss": 1.0556805610656739,
      "memory(GiB)": 74.63,
      "step": 2485,
      "token_acc": 0.6928414901387875,
      "train_speed(iter/s)": 0.178863
    },
    {
      "epoch": 1.8412493069672888,
      "grad_norm": 0.9468756707473351,
      "learning_rate": 3.075002728897747e-07,
      "loss": 1.0154769897460938,
      "memory(GiB)": 74.63,
      "step": 2490,
      "token_acc": 0.6334152334152334,
      "train_speed(iter/s)": 0.178234
    },
    {
      "epoch": 1.8449454814267234,
      "grad_norm": 0.9178809513706729,
      "learning_rate": 2.933688232730536e-07,
      "loss": 1.0376591682434082,
      "memory(GiB)": 74.63,
      "step": 2495,
      "token_acc": 0.6742112482853223,
      "train_speed(iter/s)": 0.177603
    },
    {
      "epoch": 1.8486416558861578,
      "grad_norm": 1.0627891032300194,
      "learning_rate": 2.79564935786143e-07,
      "loss": 1.0138132095336914,
      "memory(GiB)": 74.63,
      "step": 2500,
      "token_acc": 0.6157316041725401,
      "train_speed(iter/s)": 0.176992
    },
    {
      "epoch": 1.8486416558861578,
      "eval_loss": 0.6568954586982727,
      "eval_runtime": 89.4508,
      "eval_samples_per_second": 78.199,
      "eval_steps_per_second": 0.615,
      "eval_token_acc": 0.632513153429357,
      "step": 2500
    },
    {
      "epoch": 1.8523378303455922,
      "grad_norm": 1.0872052595724289,
      "learning_rate": 2.660890762580903e-07,
      "loss": 1.0546483993530273,
      "memory(GiB)": 74.63,
      "step": 2505,
      "token_acc": 0.6424242424242425,
      "train_speed(iter/s)": 0.175004
    },
    {
      "epoch": 1.8560340048050268,
      "grad_norm": 1.1281209574136644,
      "learning_rate": 2.5294169944824254e-07,
      "loss": 1.0317713737487793,
      "memory(GiB)": 74.63,
      "step": 2510,
      "token_acc": 0.6293388429752066,
      "train_speed(iter/s)": 0.174416
    },
    {
      "epoch": 1.8597301792644614,
      "grad_norm": 0.8926816061055212,
      "learning_rate": 2.401232490308969e-07,
      "loss": 1.048653793334961,
      "memory(GiB)": 74.63,
      "step": 2515,
      "token_acc": 0.6237929702587872,
      "train_speed(iter/s)": 0.173811
    },
    {
      "epoch": 1.8634263537238958,
      "grad_norm": 1.0912285805001078,
      "learning_rate": 2.2763415758032316e-07,
      "loss": 1.0199008941650392,
      "memory(GiB)": 74.63,
      "step": 2520,
      "token_acc": 0.632258064516129,
      "train_speed(iter/s)": 0.173239
    },
    {
      "epoch": 1.8671225281833301,
      "grad_norm": 1.0989085317685814,
      "learning_rate": 2.1547484655617513e-07,
      "loss": 1.010093879699707,
      "memory(GiB)": 74.63,
      "step": 2525,
      "token_acc": 0.6342616920651603,
      "train_speed(iter/s)": 0.172675
    },
    {
      "epoch": 1.8708187026427647,
      "grad_norm": 1.0229802711909943,
      "learning_rate": 2.0364572628925993e-07,
      "loss": 1.0246079444885254,
      "memory(GiB)": 74.63,
      "step": 2530,
      "token_acc": 0.717948717948718,
      "train_speed(iter/s)": 0.172113
    },
    {
      "epoch": 1.8745148771021993,
      "grad_norm": 1.1101947156669076,
      "learning_rate": 1.921471959676957e-07,
      "loss": 1.0213122367858887,
      "memory(GiB)": 74.63,
      "step": 2535,
      "token_acc": 0.6377079482439926,
      "train_speed(iter/s)": 0.171534
    },
    {
      "epoch": 1.8782110515616337,
      "grad_norm": 0.972824509691789,
      "learning_rate": 1.809796436234379e-07,
      "loss": 1.0392621040344239,
      "memory(GiB)": 74.63,
      "step": 2540,
      "token_acc": 0.6089108910891089,
      "train_speed(iter/s)": 0.17099
    },
    {
      "epoch": 1.881907226021068,
      "grad_norm": 1.0893138267742302,
      "learning_rate": 1.7014344611918753e-07,
      "loss": 1.0224065780639648,
      "memory(GiB)": 74.63,
      "step": 2545,
      "token_acc": 0.628198149156233,
      "train_speed(iter/s)": 0.170427
    },
    {
      "epoch": 1.8856034004805027,
      "grad_norm": 1.1303784675436226,
      "learning_rate": 1.5963896913566923e-07,
      "loss": 1.0195607185363769,
      "memory(GiB)": 74.63,
      "step": 2550,
      "token_acc": 0.658051689860835,
      "train_speed(iter/s)": 0.169871
    },
    {
      "epoch": 1.8856034004805027,
      "eval_loss": 0.6567226648330688,
      "eval_runtime": 88.1394,
      "eval_samples_per_second": 79.363,
      "eval_steps_per_second": 0.624,
      "eval_token_acc": 0.6325870296451402,
      "step": 2550
    },
    {
      "epoch": 1.8892995749399373,
      "grad_norm": 1.09017259229996,
      "learning_rate": 1.494665671592943e-07,
      "loss": 1.0317469596862794,
      "memory(GiB)": 74.63,
      "step": 2555,
      "token_acc": 0.6337277475748854,
      "train_speed(iter/s)": 0.168117
    },
    {
      "epoch": 1.8929957493993717,
      "grad_norm": 0.9679050962600252,
      "learning_rate": 1.3962658347019819e-07,
      "loss": 1.0667352676391602,
      "memory(GiB)": 74.63,
      "step": 2560,
      "token_acc": 0.6295540658700087,
      "train_speed(iter/s)": 0.167582
    },
    {
      "epoch": 1.896691923858806,
      "grad_norm": 0.88490239893554,
      "learning_rate": 1.3011935013065303e-07,
      "loss": 1.0192485809326173,
      "memory(GiB)": 74.63,
      "step": 2565,
      "token_acc": 0.599483204134367,
      "train_speed(iter/s)": 0.16706
    },
    {
      "epoch": 1.9003880983182406,
      "grad_norm": 1.0244757899454908,
      "learning_rate": 1.2094518797386657e-07,
      "loss": 1.0162858963012695,
      "memory(GiB)": 74.63,
      "step": 2570,
      "token_acc": 0.6262672811059908,
      "train_speed(iter/s)": 0.166543
    },
    {
      "epoch": 1.9040842727776752,
      "grad_norm": 0.9237340665622228,
      "learning_rate": 1.121044065931498e-07,
      "loss": 1.0645517349243163,
      "memory(GiB)": 74.63,
      "step": 2575,
      "token_acc": 0.6675933280381255,
      "train_speed(iter/s)": 0.166012
    },
    {
      "epoch": 1.9077804472371096,
      "grad_norm": 0.9745219678731106,
      "learning_rate": 1.0359730433147308e-07,
      "loss": 1.0265457153320312,
      "memory(GiB)": 74.63,
      "step": 2580,
      "token_acc": 0.6550632911392406,
      "train_speed(iter/s)": 0.165515
    },
    {
      "epoch": 1.911476621696544,
      "grad_norm": 1.0007256420566137,
      "learning_rate": 9.542416827139855e-08,
      "loss": 1.0198524475097657,
      "memory(GiB)": 74.63,
      "step": 2585,
      "token_acc": 0.6085481682496607,
      "train_speed(iter/s)": 0.164991
    },
    {
      "epoch": 1.9151727961559786,
      "grad_norm": 0.9874298790271662,
      "learning_rate": 8.758527422538798e-08,
      "loss": 1.0276208877563477,
      "memory(GiB)": 74.63,
      "step": 2590,
      "token_acc": 0.6413793103448275,
      "train_speed(iter/s)": 0.164496
    },
    {
      "epoch": 1.9188689706154132,
      "grad_norm": 0.985598517098827,
      "learning_rate": 8.008088672650016e-08,
      "loss": 1.0311683654785155,
      "memory(GiB)": 74.63,
      "step": 2595,
      "token_acc": 0.6960919540229885,
      "train_speed(iter/s)": 0.164012
    },
    {
      "epoch": 1.9225651450748475,
      "grad_norm": 0.8074933176611375,
      "learning_rate": 7.291125901946027e-08,
      "loss": 1.0470510482788087,
      "memory(GiB)": 74.63,
      "step": 2600,
      "token_acc": 0.6391111111111111,
      "train_speed(iter/s)": 0.163535
    },
    {
      "epoch": 1.9225651450748475,
      "eval_loss": 0.6566023230552673,
      "eval_runtime": 88.9043,
      "eval_samples_per_second": 78.68,
      "eval_steps_per_second": 0.619,
      "eval_token_acc": 0.6326458997545924,
      "step": 2600
    },
    {
      "epoch": 1.926261319534282,
      "grad_norm": 1.0347205106897759,
      "learning_rate": 6.607663305211675e-08,
      "loss": 1.0246917724609375,
      "memory(GiB)": 74.63,
      "step": 2605,
      "token_acc": 0.6372442184283812,
      "train_speed(iter/s)": 0.161902
    },
    {
      "epoch": 1.9299574939937165,
      "grad_norm": 0.9451923481445313,
      "learning_rate": 5.957723946727445e-08,
      "loss": 1.030987548828125,
      "memory(GiB)": 74.63,
      "step": 2610,
      "token_acc": 0.655980271270037,
      "train_speed(iter/s)": 0.161436
    },
    {
      "epoch": 1.9336536684531511,
      "grad_norm": 0.989048068560612,
      "learning_rate": 5.341329759491087e-08,
      "loss": 1.043976402282715,
      "memory(GiB)": 74.63,
      "step": 2615,
      "token_acc": 0.6610073571024335,
      "train_speed(iter/s)": 0.160958
    },
    {
      "epoch": 1.9373498429125855,
      "grad_norm": 0.9059448258322844,
      "learning_rate": 4.758501544477767e-08,
      "loss": 1.03828706741333,
      "memory(GiB)": 74.63,
      "step": 2620,
      "token_acc": 0.663670766319773,
      "train_speed(iter/s)": 0.160484
    },
    {
      "epoch": 1.9410460173720199,
      "grad_norm": 1.0371951958694063,
      "learning_rate": 4.209258969937624e-08,
      "loss": 1.0256452560424805,
      "memory(GiB)": 74.63,
      "step": 2625,
      "token_acc": 0.6571687019448214,
      "train_speed(iter/s)": 0.160045
    },
    {
      "epoch": 1.9447421918314545,
      "grad_norm": 0.9579823005570719,
      "learning_rate": 3.6936205707325255e-08,
      "loss": 1.0316158294677735,
      "memory(GiB)": 74.63,
      "step": 2630,
      "token_acc": 0.6658135283363803,
      "train_speed(iter/s)": 0.159594
    },
    {
      "epoch": 1.948438366290889,
      "grad_norm": 1.185629004014561,
      "learning_rate": 3.2116037477103454e-08,
      "loss": 1.0686611175537108,
      "memory(GiB)": 74.63,
      "step": 2635,
      "token_acc": 0.6998087954110899,
      "train_speed(iter/s)": 0.159158
    },
    {
      "epoch": 1.9521345407503234,
      "grad_norm": 0.9906589709801633,
      "learning_rate": 2.763224767117767e-08,
      "loss": 0.9920598983764648,
      "memory(GiB)": 74.63,
      "step": 2640,
      "token_acc": 0.6588921282798834,
      "train_speed(iter/s)": 0.158729
    },
    {
      "epoch": 1.9558307152097578,
      "grad_norm": 0.9014323974805333,
      "learning_rate": 2.3484987600512767e-08,
      "loss": 1.0331963539123534,
      "memory(GiB)": 74.63,
      "step": 2645,
      "token_acc": 0.6714507370054306,
      "train_speed(iter/s)": 0.158272
    },
    {
      "epoch": 1.9595268896691924,
      "grad_norm": 0.9766018351933058,
      "learning_rate": 1.9674397219469064e-08,
      "loss": 1.037597370147705,
      "memory(GiB)": 74.63,
      "step": 2650,
      "token_acc": 0.6561371841155235,
      "train_speed(iter/s)": 0.157844
    },
    {
      "epoch": 1.9595268896691924,
      "eval_loss": 0.6565667390823364,
      "eval_runtime": 88.279,
      "eval_samples_per_second": 79.237,
      "eval_steps_per_second": 0.623,
      "eval_token_acc": 0.6325916469086267,
      "step": 2650
    },
    {
      "epoch": 1.963223064128627,
      "grad_norm": 1.0614662558544963,
      "learning_rate": 1.620060512107391e-08,
      "loss": 1.016525936126709,
      "memory(GiB)": 74.63,
      "step": 2655,
      "token_acc": 0.6412867391807452,
      "train_speed(iter/s)": 0.156391
    },
    {
      "epoch": 1.9669192385880614,
      "grad_norm": 1.234699645190091,
      "learning_rate": 1.3063728532686225e-08,
      "loss": 1.0382546424865722,
      "memory(GiB)": 74.63,
      "step": 2660,
      "token_acc": 0.628119293974437,
      "train_speed(iter/s)": 0.155979
    },
    {
      "epoch": 1.9706154130474958,
      "grad_norm": 1.1176674856308213,
      "learning_rate": 1.0263873312040818e-08,
      "loss": 1.0646825790405274,
      "memory(GiB)": 74.63,
      "step": 2665,
      "token_acc": 0.6521344232515894,
      "train_speed(iter/s)": 0.155534
    },
    {
      "epoch": 1.9743115875069304,
      "grad_norm": 0.9542666956735151,
      "learning_rate": 7.801133943672323e-09,
      "loss": 1.047515296936035,
      "memory(GiB)": 74.63,
      "step": 2670,
      "token_acc": 0.632,
      "train_speed(iter/s)": 0.15513
    },
    {
      "epoch": 1.978007761966365,
      "grad_norm": 0.966385972017561,
      "learning_rate": 5.675593535731106e-09,
      "loss": 1.0257146835327149,
      "memory(GiB)": 74.63,
      "step": 2675,
      "token_acc": 0.6467647058823529,
      "train_speed(iter/s)": 0.15474
    },
    {
      "epoch": 1.9817039364257993,
      "grad_norm": 1.0905550872468757,
      "learning_rate": 3.887323817173272e-09,
      "loss": 1.0138104438781739,
      "memory(GiB)": 74.63,
      "step": 2680,
      "token_acc": 0.6310845431255337,
      "train_speed(iter/s)": 0.154324
    },
    {
      "epoch": 1.9854001108852337,
      "grad_norm": 1.0126426754906144,
      "learning_rate": 2.436385135348163e-09,
      "loss": 1.015495491027832,
      "memory(GiB)": 74.63,
      "step": 2685,
      "token_acc": 0.6567026194144838,
      "train_speed(iter/s)": 0.153915
    },
    {
      "epoch": 1.9890962853446683,
      "grad_norm": 0.8862791092932369,
      "learning_rate": 1.3228264539522084e-09,
      "loss": 1.049496841430664,
      "memory(GiB)": 74.63,
      "step": 2690,
      "token_acc": 0.6486280487804879,
      "train_speed(iter/s)": 0.153518
    },
    {
      "epoch": 1.992792459804103,
      "grad_norm": 1.0787160107890392,
      "learning_rate": 5.466853513858006e-10,
      "loss": 1.0067996978759766,
      "memory(GiB)": 74.63,
      "step": 2695,
      "token_acc": 0.6233766233766234,
      "train_speed(iter/s)": 0.153131
    },
    {
      "epoch": 1.9964886342635373,
      "grad_norm": 1.058938505423735,
      "learning_rate": 1.0798801947764503e-10,
      "loss": 1.0397415161132812,
      "memory(GiB)": 74.63,
      "step": 2700,
      "token_acc": 0.6839266450916937,
      "train_speed(iter/s)": 0.152739
    },
    {
      "epoch": 1.9964886342635373,
      "eval_loss": 0.6565173864364624,
      "eval_runtime": 87.3486,
      "eval_samples_per_second": 80.081,
      "eval_steps_per_second": 0.63,
      "eval_token_acc": 0.6325489372213771,
      "step": 2700
    },
    {
      "epoch": 1.9994455738310848,
      "eval_loss": 0.6564235091209412,
      "eval_runtime": 89.612,
      "eval_samples_per_second": 78.059,
      "eval_steps_per_second": 0.614,
      "eval_token_acc": 0.6324912214277963,
      "step": 2704
    }
  ],
  "logging_steps": 5,
  "max_steps": 2704,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.945781552860365e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}