{
  "best_metric": 0.00065021,
  "best_model_checkpoint": "/mnt/si0001694oxp/default/vlm_sft/outputs/output/deepseek-vl-7b-chat/v32-20250613-154734/checkpoint-3000",
  "epoch": 1.0993219717793659,
  "eval_steps": 500,
  "global_step": 3000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0003665017408832692,
      "grad_norm": 16.33839225769043,
      "learning_rate": 9.999999631609428e-06,
      "loss": 3.0264194011688232,
      "memory(GiB)": 149.2,
      "step": 1,
      "token_acc": 0.4675925925925926,
      "train_speed(iter/s)": 0.033836
    },
    {
      "epoch": 0.001832508704416346,
      "grad_norm": 6.188778400421143,
      "learning_rate": 9.999990790238409e-06,
      "loss": 0.6836232542991638,
      "memory(GiB)": 158.4,
      "step": 5,
      "token_acc": 0.8406651231319722,
      "train_speed(iter/s)": 0.042635
    },
    {
      "epoch": 0.003665017408832692,
      "grad_norm": 0.4842391312122345,
      "learning_rate": 9.999963160987561e-06,
      "loss": 0.05034670829772949,
      "memory(GiB)": 158.4,
      "step": 10,
      "token_acc": 0.9856121161127471,
      "train_speed(iter/s)": 0.04407
    },
    {
      "epoch": 0.005497526113249038,
      "grad_norm": 0.1827951818704605,
      "learning_rate": 9.99991711234924e-06,
      "loss": 0.01651783734560013,
      "memory(GiB)": 158.4,
      "step": 15,
      "token_acc": 0.9920074036681811,
      "train_speed(iter/s)": 0.044607
    },
    {
      "epoch": 0.007330034817665384,
      "grad_norm": 0.09308009594678879,
      "learning_rate": 9.999852644493086e-06,
      "loss": 0.014441253244876861,
      "memory(GiB)": 158.4,
      "step": 20,
      "token_acc": 0.9914947368421053,
      "train_speed(iter/s)": 0.044685
    },
    {
      "epoch": 0.00916254352208173,
      "grad_norm": 0.13165982067584991,
      "learning_rate": 9.999769757656593e-06,
      "loss": 0.013714964687824249,
      "memory(GiB)": 158.4,
      "step": 25,
      "token_acc": 0.9919225915018931,
      "train_speed(iter/s)": 0.044897
    },
    {
      "epoch": 0.010995052226498075,
      "grad_norm": 0.136412113904953,
      "learning_rate": 9.999668452145104e-06,
      "loss": 0.010563116520643234,
      "memory(GiB)": 158.4,
      "step": 30,
      "token_acc": 0.9947824623411596,
      "train_speed(iter/s)": 0.04502
    },
    {
      "epoch": 0.012827560930914422,
      "grad_norm": 0.2637465298175812,
      "learning_rate": 9.999548728331825e-06,
      "loss": 0.008089790493249894,
      "memory(GiB)": 158.4,
      "step": 35,
      "token_acc": 0.9959606160060591,
      "train_speed(iter/s)": 0.045028
    },
    {
      "epoch": 0.014660069635330768,
      "grad_norm": 0.2768152952194214,
      "learning_rate": 9.999410586657801e-06,
      "loss": 0.005358598381280899,
      "memory(GiB)": 158.4,
      "step": 40,
      "token_acc": 0.9978118161925602,
      "train_speed(iter/s)": 0.045061
    },
    {
      "epoch": 0.016492578339747113,
      "grad_norm": 0.09677782654762268,
      "learning_rate": 9.999254027631938e-06,
      "loss": 0.003943501785397529,
      "memory(GiB)": 158.4,
      "step": 45,
      "token_acc": 0.9986528584659425,
      "train_speed(iter/s)": 0.044994
    },
    {
      "epoch": 0.01832508704416346,
      "grad_norm": 0.3623986840248108,
      "learning_rate": 9.99907905183098e-06,
      "loss": 0.0031241703778505324,
      "memory(GiB)": 158.4,
      "step": 50,
      "token_acc": 0.9987373737373737,
      "train_speed(iter/s)": 0.04505
    },
    {
      "epoch": 0.020157595748579806,
      "grad_norm": 0.496895432472229,
      "learning_rate": 9.998885659899524e-06,
      "loss": 0.002511710487306118,
      "memory(GiB)": 158.4,
      "step": 55,
      "token_acc": 0.9988217471806093,
      "train_speed(iter/s)": 0.045107
    },
    {
      "epoch": 0.02199010445299615,
      "grad_norm": 0.1918005645275116,
      "learning_rate": 9.998673852550007e-06,
      "loss": 0.002556230500340462,
      "memory(GiB)": 158.4,
      "step": 60,
      "token_acc": 0.9994104270192875,
      "train_speed(iter/s)": 0.045164
    },
    {
      "epoch": 0.0238226131574125,
      "grad_norm": 0.16670851409435272,
      "learning_rate": 9.998443630562707e-06,
      "loss": 0.0034642994403839113,
      "memory(GiB)": 158.4,
      "step": 65,
      "token_acc": 0.9989904938167746,
      "train_speed(iter/s)": 0.045187
    },
    {
      "epoch": 0.025655121861828844,
      "grad_norm": 0.04445331171154976,
      "learning_rate": 9.99819499478574e-06,
      "loss": 0.00226197075098753,
      "memory(GiB)": 158.4,
      "step": 70,
      "token_acc": 0.9994109231675503,
      "train_speed(iter/s)": 0.045194
    },
    {
      "epoch": 0.02748763056624519,
      "grad_norm": 0.13421526551246643,
      "learning_rate": 9.997927946135055e-06,
      "loss": 0.0026616916060447694,
      "memory(GiB)": 158.4,
      "step": 75,
      "token_acc": 0.998989558773998,
      "train_speed(iter/s)": 0.04522
    },
    {
      "epoch": 0.029320139270661537,
      "grad_norm": 0.09873384982347488,
      "learning_rate": 9.997642485594436e-06,
      "loss": 0.0017027700319886207,
      "memory(GiB)": 158.4,
      "step": 80,
      "token_acc": 0.9993260887878022,
      "train_speed(iter/s)": 0.04525
    },
    {
      "epoch": 0.03115264797507788,
      "grad_norm": 0.03224126249551773,
      "learning_rate": 9.997338614215492e-06,
      "loss": 0.0017118226736783982,
      "memory(GiB)": 158.4,
      "step": 85,
      "token_acc": 0.9993263725159987,
      "train_speed(iter/s)": 0.04528
    },
    {
      "epoch": 0.032985156679494226,
      "grad_norm": 0.3803243637084961,
      "learning_rate": 9.997016333117655e-06,
      "loss": 0.0019580798223614694,
      "memory(GiB)": 158.4,
      "step": 90,
      "token_acc": 0.9993265993265993,
      "train_speed(iter/s)": 0.045299
    },
    {
      "epoch": 0.034817665383910575,
      "grad_norm": 0.3237900733947754,
      "learning_rate": 9.996675643488177e-06,
      "loss": 0.002880098670721054,
      "memory(GiB)": 158.4,
      "step": 95,
      "token_acc": 0.9990737622094982,
      "train_speed(iter/s)": 0.045329
    },
    {
      "epoch": 0.03665017408832692,
      "grad_norm": 0.1465182900428772,
      "learning_rate": 9.99631654658213e-06,
      "loss": 0.0028293343260884286,
      "memory(GiB)": 158.4,
      "step": 100,
      "token_acc": 0.9990743857287109,
      "train_speed(iter/s)": 0.045355
    },
    {
      "epoch": 0.038482682792743264,
      "grad_norm": 0.24748782813549042,
      "learning_rate": 9.995939043722388e-06,
      "loss": 0.0018339043483138085,
      "memory(GiB)": 158.4,
      "step": 105,
      "token_acc": 0.9994106255788499,
      "train_speed(iter/s)": 0.045379
    },
    {
      "epoch": 0.04031519149715961,
      "grad_norm": 0.04621001332998276,
      "learning_rate": 9.995543136299636e-06,
      "loss": 0.0019403379410505295,
      "memory(GiB)": 158.4,
      "step": 110,
      "token_acc": 0.9994108735903047,
      "train_speed(iter/s)": 0.045398
    },
    {
      "epoch": 0.04214770020157596,
      "grad_norm": 0.06725554913282394,
      "learning_rate": 9.995128825772365e-06,
      "loss": 0.0010762955993413926,
      "memory(GiB)": 158.4,
      "step": 115,
      "token_acc": 0.9995792308339645,
      "train_speed(iter/s)": 0.045421
    },
    {
      "epoch": 0.0439802089059923,
      "grad_norm": 0.16836291551589966,
      "learning_rate": 9.99469611366685e-06,
      "loss": 0.0029191805049777033,
      "memory(GiB)": 158.4,
      "step": 120,
      "token_acc": 0.9990743857287109,
      "train_speed(iter/s)": 0.045438
    },
    {
      "epoch": 0.04581271761040865,
      "grad_norm": 0.19015128910541534,
      "learning_rate": 9.994245001577163e-06,
      "loss": 0.0029153132811188696,
      "memory(GiB)": 158.4,
      "step": 125,
      "token_acc": 0.9988206553786538,
      "train_speed(iter/s)": 0.045454
    },
    {
      "epoch": 0.047645226314825,
      "grad_norm": 0.2672649919986725,
      "learning_rate": 9.993775491165157e-06,
      "loss": 0.0028599994257092476,
      "memory(GiB)": 158.4,
      "step": 130,
      "token_acc": 0.9989905787348586,
      "train_speed(iter/s)": 0.045477
    },
    {
      "epoch": 0.04947773501924134,
      "grad_norm": 0.09613120555877686,
      "learning_rate": 9.993287584160462e-06,
      "loss": 0.001117743458598852,
      "memory(GiB)": 158.4,
      "step": 135,
      "token_acc": 0.9996634129922585,
      "train_speed(iter/s)": 0.045484
    },
    {
      "epoch": 0.05131024372365769,
      "grad_norm": 0.08400937169790268,
      "learning_rate": 9.992781282360486e-06,
      "loss": 0.0014099805615842343,
      "memory(GiB)": 158.4,
      "step": 140,
      "token_acc": 0.9995794785534062,
      "train_speed(iter/s)": 0.045497
    },
    {
      "epoch": 0.053142752428074036,
      "grad_norm": 0.2961122989654541,
      "learning_rate": 9.992256587630392e-06,
      "loss": 0.0026107219979166984,
      "memory(GiB)": 158.4,
      "step": 145,
      "token_acc": 0.9993264292329713,
      "train_speed(iter/s)": 0.045509
    },
    {
      "epoch": 0.05497526113249038,
      "grad_norm": 0.11588957160711288,
      "learning_rate": 9.991713501903107e-06,
      "loss": 0.0020393442362546923,
      "memory(GiB)": 158.4,
      "step": 150,
      "token_acc": 0.9991583908432924,
      "train_speed(iter/s)": 0.045518
    },
    {
      "epoch": 0.056807769836906725,
      "grad_norm": 0.04025767371058464,
      "learning_rate": 9.991152027179307e-06,
      "loss": 0.001108243688941002,
      "memory(GiB)": 158.4,
      "step": 155,
      "token_acc": 0.9997475172529877,
      "train_speed(iter/s)": 0.045528
    },
    {
      "epoch": 0.058640278541323074,
      "grad_norm": 0.26148226857185364,
      "learning_rate": 9.990572165527413e-06,
      "loss": 0.003043392114341259,
      "memory(GiB)": 158.4,
      "step": 160,
      "token_acc": 0.9991581074254925,
      "train_speed(iter/s)": 0.045537
    },
    {
      "epoch": 0.060472787245739415,
      "grad_norm": 0.02609323337674141,
      "learning_rate": 9.989973919083576e-06,
      "loss": 0.003145371749997139,
      "memory(GiB)": 158.4,
      "step": 165,
      "token_acc": 0.9989058160087535,
      "train_speed(iter/s)": 0.045548
    },
    {
      "epoch": 0.06230529595015576,
      "grad_norm": 0.08112650364637375,
      "learning_rate": 9.989357290051681e-06,
      "loss": 0.0019015805795788766,
      "memory(GiB)": 158.4,
      "step": 170,
      "token_acc": 0.9991585324806462,
      "train_speed(iter/s)": 0.045556
    },
    {
      "epoch": 0.06413780465457211,
      "grad_norm": 0.012307146564126015,
      "learning_rate": 9.98872228070333e-06,
      "loss": 0.0017634263262152673,
      "memory(GiB)": 158.4,
      "step": 175,
      "token_acc": 0.9994951619688683,
      "train_speed(iter/s)": 0.045559
    },
    {
      "epoch": 0.06597031335898845,
      "grad_norm": 0.22926685214042664,
      "learning_rate": 9.988068893377841e-06,
      "loss": 0.0008580862544476986,
      "memory(GiB)": 158.4,
      "step": 180,
      "token_acc": 0.9996634413125789,
      "train_speed(iter/s)": 0.045562
    },
    {
      "epoch": 0.06780282206340481,
      "grad_norm": 0.07493411749601364,
      "learning_rate": 9.987397130482224e-06,
      "loss": 0.001726461760699749,
      "memory(GiB)": 158.4,
      "step": 185,
      "token_acc": 0.9994107744107744,
      "train_speed(iter/s)": 0.045574
    },
    {
      "epoch": 0.06963533076782115,
      "grad_norm": 0.11616482585668564,
      "learning_rate": 9.986706994491194e-06,
      "loss": 0.0020760688930749893,
      "memory(GiB)": 158.4,
      "step": 190,
      "token_acc": 0.999494779386999,
      "train_speed(iter/s)": 0.04558
    },
    {
      "epoch": 0.07146783947223749,
      "grad_norm": 0.1130843311548233,
      "learning_rate": 9.985998487947143e-06,
      "loss": 0.003568219020962715,
      "memory(GiB)": 158.4,
      "step": 195,
      "token_acc": 0.9988221436984688,
      "train_speed(iter/s)": 0.045588
    },
    {
      "epoch": 0.07330034817665385,
      "grad_norm": 0.03086119331419468,
      "learning_rate": 9.985271613460144e-06,
      "loss": 0.0014082181267440319,
      "memory(GiB)": 158.4,
      "step": 200,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.045593
    },
    {
      "epoch": 0.07513285688107019,
      "grad_norm": 0.10936316847801208,
      "learning_rate": 9.984526373707933e-06,
      "loss": 0.0023099591955542563,
      "memory(GiB)": 158.4,
      "step": 205,
      "token_acc": 0.999242615501136,
      "train_speed(iter/s)": 0.045599
    },
    {
      "epoch": 0.07696536558548653,
      "grad_norm": 0.17849738895893097,
      "learning_rate": 9.983762771435902e-06,
      "loss": 0.0017316842451691628,
      "memory(GiB)": 158.4,
      "step": 210,
      "token_acc": 0.9995793016407236,
      "train_speed(iter/s)": 0.0456
    },
    {
      "epoch": 0.07879787428990288,
      "grad_norm": 0.07379074394702911,
      "learning_rate": 9.982980809457088e-06,
      "loss": 0.001504539605230093,
      "memory(GiB)": 158.4,
      "step": 215,
      "token_acc": 0.99949499200404,
      "train_speed(iter/s)": 0.045601
    },
    {
      "epoch": 0.08063038299431922,
      "grad_norm": 0.20956623554229736,
      "learning_rate": 9.982180490652165e-06,
      "loss": 0.001286138966679573,
      "memory(GiB)": 158.4,
      "step": 220,
      "token_acc": 0.9997476022211005,
      "train_speed(iter/s)": 0.045606
    },
    {
      "epoch": 0.08246289169873557,
      "grad_norm": 0.36039137840270996,
      "learning_rate": 9.981361817969433e-06,
      "loss": 0.0015822691842913628,
      "memory(GiB)": 158.4,
      "step": 225,
      "token_acc": 0.999494779386999,
      "train_speed(iter/s)": 0.045612
    },
    {
      "epoch": 0.08429540040315192,
      "grad_norm": 0.05167197808623314,
      "learning_rate": 9.9805247944248e-06,
      "loss": 0.0016318798065185548,
      "memory(GiB)": 158.4,
      "step": 230,
      "token_acc": 0.9994951194883878,
      "train_speed(iter/s)": 0.045618
    },
    {
      "epoch": 0.08612790910756826,
      "grad_norm": 0.0602310486137867,
      "learning_rate": 9.979669423101784e-06,
      "loss": 0.0017338620498776435,
      "memory(GiB)": 158.4,
      "step": 235,
      "token_acc": 0.9992421690804985,
      "train_speed(iter/s)": 0.045622
    },
    {
      "epoch": 0.0879604178119846,
      "grad_norm": 0.03006557747721672,
      "learning_rate": 9.978795707151492e-06,
      "loss": 0.0005913118831813336,
      "memory(GiB)": 158.4,
      "step": 240,
      "token_acc": 0.9997476659096644,
      "train_speed(iter/s)": 0.045626
    },
    {
      "epoch": 0.08979292651640096,
      "grad_norm": 0.1851363480091095,
      "learning_rate": 9.977903649792606e-06,
      "loss": 0.0013333003968000411,
      "memory(GiB)": 158.4,
      "step": 245,
      "token_acc": 0.9995793016407236,
      "train_speed(iter/s)": 0.04562
    },
    {
      "epoch": 0.0916254352208173,
      "grad_norm": 0.16427940130233765,
      "learning_rate": 9.976993254311385e-06,
      "loss": 0.0022492580115795135,
      "memory(GiB)": 158.4,
      "step": 250,
      "token_acc": 0.999326259053394,
      "train_speed(iter/s)": 0.045566
    },
    {
      "epoch": 0.09345794392523364,
      "grad_norm": 0.07113044708967209,
      "learning_rate": 9.976064524061637e-06,
      "loss": 0.0023244613781571387,
      "memory(GiB)": 158.4,
      "step": 255,
      "token_acc": 0.9994107744107744,
      "train_speed(iter/s)": 0.04552
    },
    {
      "epoch": 0.09529045262965,
      "grad_norm": 0.0672680214047432,
      "learning_rate": 9.975117462464716e-06,
      "loss": 0.0020451253280043603,
      "memory(GiB)": 158.4,
      "step": 260,
      "token_acc": 0.9994105263157895,
      "train_speed(iter/s)": 0.045509
    },
    {
      "epoch": 0.09712296133406634,
      "grad_norm": 0.09312908351421356,
      "learning_rate": 9.974152073009506e-06,
      "loss": 0.0018878720700740814,
      "memory(GiB)": 158.4,
      "step": 265,
      "token_acc": 0.9994954167017072,
      "train_speed(iter/s)": 0.045482
    },
    {
      "epoch": 0.09895547003848268,
      "grad_norm": 0.06397019326686859,
      "learning_rate": 9.973168359252411e-06,
      "loss": 0.0020165286958217623,
      "memory(GiB)": 158.4,
      "step": 270,
      "token_acc": 0.9994108735903047,
      "train_speed(iter/s)": 0.045476
    },
    {
      "epoch": 0.10078797874289903,
      "grad_norm": 0.15306073427200317,
      "learning_rate": 9.972166324817338e-06,
      "loss": 0.0017529357224702834,
      "memory(GiB)": 158.4,
      "step": 275,
      "token_acc": 0.9997474109623642,
      "train_speed(iter/s)": 0.045455
    },
    {
      "epoch": 0.10262048744731538,
      "grad_norm": 0.13208770751953125,
      "learning_rate": 9.971145973395685e-06,
      "loss": 0.001645715907216072,
      "memory(GiB)": 158.4,
      "step": 280,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.045452
    },
    {
      "epoch": 0.10445299615173172,
      "grad_norm": 0.0297766774892807,
      "learning_rate": 9.97010730874633e-06,
      "loss": 0.0012823720462620258,
      "memory(GiB)": 158.4,
      "step": 285,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.045422
    },
    {
      "epoch": 0.10628550485614807,
      "grad_norm": 0.16176588833332062,
      "learning_rate": 9.969050334695619e-06,
      "loss": 0.001742975413799286,
      "memory(GiB)": 158.4,
      "step": 290,
      "token_acc": 0.9995788764423482,
      "train_speed(iter/s)": 0.045417
    },
    {
      "epoch": 0.10811801356056441,
      "grad_norm": 0.10822831094264984,
      "learning_rate": 9.967975055137335e-06,
      "loss": 0.002227822504937649,
      "memory(GiB)": 158.4,
      "step": 295,
      "token_acc": 0.9994103773584906,
      "train_speed(iter/s)": 0.045373
    },
    {
      "epoch": 0.10995052226498075,
      "grad_norm": 0.1328648328781128,
      "learning_rate": 9.966881474032711e-06,
      "loss": 0.0017272233963012695,
      "memory(GiB)": 158.4,
      "step": 300,
      "token_acc": 0.9994105759514988,
      "train_speed(iter/s)": 0.045362
    },
    {
      "epoch": 0.11178303096939711,
      "grad_norm": 0.11945555359125137,
      "learning_rate": 9.965769595410395e-06,
      "loss": 0.0011399961076676846,
      "memory(GiB)": 158.4,
      "step": 305,
      "token_acc": 0.9995791954216462,
      "train_speed(iter/s)": 0.045363
    },
    {
      "epoch": 0.11361553967381345,
      "grad_norm": 0.2175164371728897,
      "learning_rate": 9.964639423366442e-06,
      "loss": 0.0025836611166596413,
      "memory(GiB)": 158.4,
      "step": 310,
      "token_acc": 0.9990738401953355,
      "train_speed(iter/s)": 0.045357
    },
    {
      "epoch": 0.11544804837822979,
      "grad_norm": 0.035975273698568344,
      "learning_rate": 9.963490962064297e-06,
      "loss": 0.0006968880537897348,
      "memory(GiB)": 158.4,
      "step": 315,
      "token_acc": 0.9997475385003787,
      "train_speed(iter/s)": 0.04536
    },
    {
      "epoch": 0.11728055708264615,
      "grad_norm": 0.14850489795207977,
      "learning_rate": 9.962324215734782e-06,
      "loss": 0.0017726331949234008,
      "memory(GiB)": 158.4,
      "step": 320,
      "token_acc": 0.999242615501136,
      "train_speed(iter/s)": 0.045365
    },
    {
      "epoch": 0.11911306578706249,
      "grad_norm": 0.03455163165926933,
      "learning_rate": 9.96113918867608e-06,
      "loss": 0.0013269748538732528,
      "memory(GiB)": 158.4,
      "step": 325,
      "token_acc": 0.9997475172529877,
      "train_speed(iter/s)": 0.045365
    },
    {
      "epoch": 0.12094557449147883,
      "grad_norm": 0.23186658322811127,
      "learning_rate": 9.959935885253715e-06,
      "loss": 0.0010508694685995579,
      "memory(GiB)": 158.4,
      "step": 330,
      "token_acc": 0.9998317064961293,
      "train_speed(iter/s)": 0.045369
    },
    {
      "epoch": 0.12277808319589519,
      "grad_norm": 0.06666416674852371,
      "learning_rate": 9.958714309900546e-06,
      "loss": 0.0009142296388745308,
      "memory(GiB)": 158.4,
      "step": 335,
      "token_acc": 0.9995789119083712,
      "train_speed(iter/s)": 0.045376
    },
    {
      "epoch": 0.12461059190031153,
      "grad_norm": 0.014640443958342075,
      "learning_rate": 9.957474467116739e-06,
      "loss": 0.0024377334862947463,
      "memory(GiB)": 158.4,
      "step": 340,
      "token_acc": 0.9992424880060601,
      "train_speed(iter/s)": 0.045382
    },
    {
      "epoch": 0.12644310060472788,
      "grad_norm": 0.15044739842414856,
      "learning_rate": 9.956216361469755e-06,
      "loss": 0.002022208273410797,
      "memory(GiB)": 158.4,
      "step": 345,
      "token_acc": 0.9994952893674294,
      "train_speed(iter/s)": 0.045388
    },
    {
      "epoch": 0.12827560930914422,
      "grad_norm": 0.012829025276005268,
      "learning_rate": 9.954939997594335e-06,
      "loss": 0.003057861886918545,
      "memory(GiB)": 158.4,
      "step": 350,
      "token_acc": 0.9992422966829433,
      "train_speed(iter/s)": 0.045394
    },
    {
      "epoch": 0.13010811801356056,
      "grad_norm": 0.02966240420937538,
      "learning_rate": 9.953645380192485e-06,
      "loss": 0.0017476610839366913,
      "memory(GiB)": 158.4,
      "step": 355,
      "token_acc": 0.999663356337317,
      "train_speed(iter/s)": 0.045399
    },
    {
      "epoch": 0.1319406267179769,
      "grad_norm": 0.0715402215719223,
      "learning_rate": 9.952332514033449e-06,
      "loss": 0.0023743031546473504,
      "memory(GiB)": 158.4,
      "step": 360,
      "token_acc": 0.9991585324806462,
      "train_speed(iter/s)": 0.045407
    },
    {
      "epoch": 0.13377313542239325,
      "grad_norm": 0.07701452821493149,
      "learning_rate": 9.9510014039537e-06,
      "loss": 0.0022863084450364113,
      "memory(GiB)": 158.4,
      "step": 365,
      "token_acc": 0.9994110222970131,
      "train_speed(iter/s)": 0.04541
    },
    {
      "epoch": 0.13560564412680962,
      "grad_norm": 0.09453430771827698,
      "learning_rate": 9.949652054856924e-06,
      "loss": 0.0019000820815563203,
      "memory(GiB)": 158.4,
      "step": 370,
      "token_acc": 0.9993265426382693,
      "train_speed(iter/s)": 0.045415
    },
    {
      "epoch": 0.13743815283122596,
      "grad_norm": 0.0394257977604866,
      "learning_rate": 9.948284471713994e-06,
      "loss": 0.0016634922474622726,
      "memory(GiB)": 158.4,
      "step": 375,
      "token_acc": 0.9994104766717197,
      "train_speed(iter/s)": 0.045419
    },
    {
      "epoch": 0.1392706615356423,
      "grad_norm": 0.04517311230301857,
      "learning_rate": 9.94689865956295e-06,
      "loss": 0.0017285166308283807,
      "memory(GiB)": 158.4,
      "step": 380,
      "token_acc": 0.9994948644552955,
      "train_speed(iter/s)": 0.045425
    },
    {
      "epoch": 0.14110317024005864,
      "grad_norm": 0.07294133305549622,
      "learning_rate": 9.945494623509003e-06,
      "loss": 0.000422241585329175,
      "memory(GiB)": 158.4,
      "step": 385,
      "token_acc": 0.9999158390843292,
      "train_speed(iter/s)": 0.045427
    },
    {
      "epoch": 0.14293567894447498,
      "grad_norm": 0.06523015350103378,
      "learning_rate": 9.944072368724476e-06,
      "loss": 0.0024235062301158905,
      "memory(GiB)": 158.4,
      "step": 390,
      "token_acc": 0.9994953318193288,
      "train_speed(iter/s)": 0.045433
    },
    {
      "epoch": 0.14476818764889132,
      "grad_norm": 0.0444883331656456,
      "learning_rate": 9.942631900448827e-06,
      "loss": 0.0009868125431239604,
      "memory(GiB)": 158.4,
      "step": 395,
      "token_acc": 0.999663356337317,
      "train_speed(iter/s)": 0.045437
    },
    {
      "epoch": 0.1466006963533077,
      "grad_norm": 0.01692277006804943,
      "learning_rate": 9.941173223988603e-06,
      "loss": 0.0023114632815122603,
      "memory(GiB)": 158.4,
      "step": 400,
      "token_acc": 0.9993263725159987,
      "train_speed(iter/s)": 0.045442
    },
    {
      "epoch": 0.14843320505772403,
      "grad_norm": 0.02756733074784279,
      "learning_rate": 9.939696344717427e-06,
      "loss": 0.0015292948111891747,
      "memory(GiB)": 158.4,
      "step": 405,
      "token_acc": 0.9994107744107744,
      "train_speed(iter/s)": 0.045444
    },
    {
      "epoch": 0.15026571376214037,
      "grad_norm": 0.09074392169713974,
      "learning_rate": 9.938201268075982e-06,
      "loss": 0.0020554307848215103,
      "memory(GiB)": 158.4,
      "step": 410,
      "token_acc": 0.9992423604680528,
      "train_speed(iter/s)": 0.045448
    },
    {
      "epoch": 0.15209822246655672,
      "grad_norm": 0.07123276591300964,
      "learning_rate": 9.936687999571987e-06,
      "loss": 0.0014599796384572982,
      "memory(GiB)": 158.4,
      "step": 415,
      "token_acc": 0.9994952044422009,
      "train_speed(iter/s)": 0.045449
    },
    {
      "epoch": 0.15393073117097306,
      "grad_norm": 0.07088897377252579,
      "learning_rate": 9.935156544780183e-06,
      "loss": 0.0010397397913038731,
      "memory(GiB)": 158.4,
      "step": 420,
      "token_acc": 0.9996633846671716,
      "train_speed(iter/s)": 0.045448
    },
    {
      "epoch": 0.1557632398753894,
      "grad_norm": 0.1305522322654724,
      "learning_rate": 9.9336069093423e-06,
      "loss": 0.0015219044871628284,
      "memory(GiB)": 158.4,
      "step": 425,
      "token_acc": 0.9994950770007573,
      "train_speed(iter/s)": 0.045451
    },
    {
      "epoch": 0.15759574857980577,
      "grad_norm": 0.03542817756533623,
      "learning_rate": 9.932039098967046e-06,
      "loss": 0.002127250283956528,
      "memory(GiB)": 158.4,
      "step": 430,
      "token_acc": 0.9994949494949495,
      "train_speed(iter/s)": 0.045456
    },
    {
      "epoch": 0.1594282572842221,
      "grad_norm": 0.14930537343025208,
      "learning_rate": 9.930453119430086e-06,
      "loss": 0.000645923474803567,
      "memory(GiB)": 158.4,
      "step": 435,
      "token_acc": 0.9997474960020201,
      "train_speed(iter/s)": 0.045458
    },
    {
      "epoch": 0.16126076598863845,
      "grad_norm": 0.10225468873977661,
      "learning_rate": 9.92884897657402e-06,
      "loss": 0.000911066122353077,
      "memory(GiB)": 158.4,
      "step": 440,
      "token_acc": 0.9997473471450228,
      "train_speed(iter/s)": 0.045415
    },
    {
      "epoch": 0.1630932746930548,
      "grad_norm": 0.05018873140215874,
      "learning_rate": 9.927226676308354e-06,
      "loss": 0.00166127011179924,
      "memory(GiB)": 158.4,
      "step": 445,
      "token_acc": 0.9997476871320438,
      "train_speed(iter/s)": 0.045381
    },
    {
      "epoch": 0.16492578339747113,
      "grad_norm": 0.17071396112442017,
      "learning_rate": 9.925586224609489e-06,
      "loss": 0.0025668978691101075,
      "memory(GiB)": 158.4,
      "step": 450,
      "token_acc": 0.9994110718492344,
      "train_speed(iter/s)": 0.045381
    },
    {
      "epoch": 0.16675829210188747,
      "grad_norm": 0.008416908793151379,
      "learning_rate": 9.923927627520694e-06,
      "loss": 0.000798144843429327,
      "memory(GiB)": 158.4,
      "step": 455,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.045382
    },
    {
      "epoch": 0.16859080080630384,
      "grad_norm": 0.1326538473367691,
      "learning_rate": 9.922250891152078e-06,
      "loss": 0.0013757062144577504,
      "memory(GiB)": 158.4,
      "step": 460,
      "token_acc": 0.9994102780117945,
      "train_speed(iter/s)": 0.045388
    },
    {
      "epoch": 0.17042330951072018,
      "grad_norm": 0.10151144862174988,
      "learning_rate": 9.92055602168058e-06,
      "loss": 0.0008957336656749248,
      "memory(GiB)": 158.4,
      "step": 465,
      "token_acc": 0.9996634696281339,
      "train_speed(iter/s)": 0.045392
    },
    {
      "epoch": 0.17225581821513652,
      "grad_norm": 0.09111111611127853,
      "learning_rate": 9.918843025349941e-06,
      "loss": 0.0013033418916165828,
      "memory(GiB)": 158.4,
      "step": 470,
      "token_acc": 0.9995792308339645,
      "train_speed(iter/s)": 0.045396
    },
    {
      "epoch": 0.17408832691955287,
      "grad_norm": 0.029473107308149338,
      "learning_rate": 9.917111908470673e-06,
      "loss": 0.0013312675058841706,
      "memory(GiB)": 158.4,
      "step": 475,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.0454
    },
    {
      "epoch": 0.1759208356239692,
      "grad_norm": 0.1001836434006691,
      "learning_rate": 9.915362677420045e-06,
      "loss": 0.0019773678854107858,
      "memory(GiB)": 158.4,
      "step": 480,
      "token_acc": 0.9991580365412142,
      "train_speed(iter/s)": 0.045406
    },
    {
      "epoch": 0.17775334432838555,
      "grad_norm": 0.047665633261203766,
      "learning_rate": 9.913595338642059e-06,
      "loss": 0.0014092091470956803,
      "memory(GiB)": 158.4,
      "step": 485,
      "token_acc": 0.9997473896934995,
      "train_speed(iter/s)": 0.045408
    },
    {
      "epoch": 0.17958585303280192,
      "grad_norm": 0.02579871006309986,
      "learning_rate": 9.91180989864742e-06,
      "loss": 0.0007158961612731219,
      "memory(GiB)": 158.4,
      "step": 490,
      "token_acc": 0.9996631862579993,
      "train_speed(iter/s)": 0.045412
    },
    {
      "epoch": 0.18141836173721826,
      "grad_norm": 0.028310472145676613,
      "learning_rate": 9.910006364013522e-06,
      "loss": 0.0007194250822067261,
      "memory(GiB)": 158.4,
      "step": 495,
      "token_acc": 0.9997475172529877,
      "train_speed(iter/s)": 0.045414
    },
    {
      "epoch": 0.1832508704416346,
      "grad_norm": 0.12511947751045227,
      "learning_rate": 9.908184741384412e-06,
      "loss": 0.0015858769416809081,
      "memory(GiB)": 158.4,
      "step": 500,
      "token_acc": 0.999663242970197,
      "train_speed(iter/s)": 0.045418
    },
    {
      "epoch": 0.1832508704416346,
      "eval_loss": 0.0010450058616697788,
      "eval_runtime": 172.5985,
      "eval_samples_per_second": 2.549,
      "eval_steps_per_second": 2.549,
      "eval_token_acc": 0.9996786189798448,
      "step": 500
    },
    {
      "epoch": 0.18508337914605094,
      "grad_norm": 0.007651148363947868,
      "learning_rate": 9.906345037470776e-06,
      "loss": 0.0017563182860612868,
      "memory(GiB)": 160.86,
      "step": 505,
      "token_acc": 0.9996503360658923,
      "train_speed(iter/s)": 0.0421
    },
    {
      "epoch": 0.18691588785046728,
      "grad_norm": 0.06049024686217308,
      "learning_rate": 9.904487259049907e-06,
      "loss": 0.0015754606574773788,
      "memory(GiB)": 160.86,
      "step": 510,
      "token_acc": 0.9991582491582491,
      "train_speed(iter/s)": 0.0421
    },
    {
      "epoch": 0.18874839655488362,
      "grad_norm": 0.06416209042072296,
      "learning_rate": 9.902611412965681e-06,
      "loss": 0.0016123156994581223,
      "memory(GiB)": 160.86,
      "step": 515,
      "token_acc": 0.9994950770007573,
      "train_speed(iter/s)": 0.042128
    },
    {
      "epoch": 0.1905809052593,
      "grad_norm": 0.028774991631507874,
      "learning_rate": 9.90071750612854e-06,
      "loss": 0.001327525917440653,
      "memory(GiB)": 160.86,
      "step": 520,
      "token_acc": 0.999326825984517,
      "train_speed(iter/s)": 0.042161
    },
    {
      "epoch": 0.19241341396371633,
      "grad_norm": 0.01806553080677986,
      "learning_rate": 9.898805545515455e-06,
      "loss": 0.0018014278262853622,
      "memory(GiB)": 160.86,
      "step": 525,
      "token_acc": 0.999494779386999,
      "train_speed(iter/s)": 0.042191
    },
    {
      "epoch": 0.19424592266813268,
      "grad_norm": 0.022810854017734528,
      "learning_rate": 9.896875538169906e-06,
      "loss": 0.0012151801958680153,
      "memory(GiB)": 160.86,
      "step": 530,
      "token_acc": 0.9996629876147949,
      "train_speed(iter/s)": 0.042224
    },
    {
      "epoch": 0.19607843137254902,
      "grad_norm": 0.11561686545610428,
      "learning_rate": 9.894927491201856e-06,
      "loss": 0.0021266091614961626,
      "memory(GiB)": 160.86,
      "step": 535,
      "token_acc": 0.9994109727364524,
      "train_speed(iter/s)": 0.042231
    },
    {
      "epoch": 0.19791094007696536,
      "grad_norm": 0.06175706535577774,
      "learning_rate": 9.892961411787725e-06,
      "loss": 0.0011159414425492287,
      "memory(GiB)": 160.86,
      "step": 540,
      "token_acc": 0.9996632146164857,
      "train_speed(iter/s)": 0.042227
    },
    {
      "epoch": 0.1997434487813817,
      "grad_norm": 0.05753181502223015,
      "learning_rate": 9.890977307170362e-06,
      "loss": 0.001347663253545761,
      "memory(GiB)": 160.86,
      "step": 545,
      "token_acc": 0.9994108240047134,
      "train_speed(iter/s)": 0.042253
    },
    {
      "epoch": 0.20157595748579807,
      "grad_norm": 0.02328096143901348,
      "learning_rate": 9.888975184659018e-06,
      "loss": 0.0003634607419371605,
      "memory(GiB)": 160.86,
      "step": 550,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.042275
    },
    {
      "epoch": 0.2034084661902144,
      "grad_norm": 0.06188211217522621,
      "learning_rate": 9.886955051629322e-06,
      "loss": 0.001550444681197405,
      "memory(GiB)": 160.86,
      "step": 555,
      "token_acc": 0.9994948219247285,
      "train_speed(iter/s)": 0.042291
    },
    {
      "epoch": 0.20524097489463075,
      "grad_norm": 0.1453787237405777,
      "learning_rate": 9.88491691552325e-06,
      "loss": 0.001519276574254036,
      "memory(GiB)": 160.86,
      "step": 560,
      "token_acc": 0.9992421052631579,
      "train_speed(iter/s)": 0.042293
    },
    {
      "epoch": 0.2070734835990471,
      "grad_norm": 0.023789288476109505,
      "learning_rate": 9.882860783849106e-06,
      "loss": 0.00029240711592137814,
      "memory(GiB)": 160.86,
      "step": 565,
      "token_acc": 0.9999158107425492,
      "train_speed(iter/s)": 0.042306
    },
    {
      "epoch": 0.20890599230346343,
      "grad_norm": 0.01045987755060196,
      "learning_rate": 9.880786664181477e-06,
      "loss": 0.0012256539426743983,
      "memory(GiB)": 160.86,
      "step": 570,
      "token_acc": 0.999579018270607,
      "train_speed(iter/s)": 0.042302
    },
    {
      "epoch": 0.21073850100787977,
      "grad_norm": 0.011777155101299286,
      "learning_rate": 9.878694564161227e-06,
      "loss": 0.00046466137282550333,
      "memory(GiB)": 160.86,
      "step": 575,
      "token_acc": 0.9998316214850985,
      "train_speed(iter/s)": 0.042318
    },
    {
      "epoch": 0.21257100971229614,
      "grad_norm": 0.23171444237232208,
      "learning_rate": 9.876584491495448e-06,
      "loss": 0.0011185991577804088,
      "memory(GiB)": 160.86,
      "step": 580,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.042309
    },
    {
      "epoch": 0.21440351841671249,
      "grad_norm": 0.049548666924238205,
      "learning_rate": 9.87445645395745e-06,
      "loss": 0.0009535157121717929,
      "memory(GiB)": 160.86,
      "step": 585,
      "token_acc": 0.9995791954216462,
      "train_speed(iter/s)": 0.042334
    },
    {
      "epoch": 0.21623602712112883,
      "grad_norm": 0.022135065868496895,
      "learning_rate": 9.87231045938672e-06,
      "loss": 0.0012145033106207848,
      "memory(GiB)": 160.86,
      "step": 590,
      "token_acc": 0.999663129526697,
      "train_speed(iter/s)": 0.042348
    },
    {
      "epoch": 0.21806853582554517,
      "grad_norm": 0.20922328531742096,
      "learning_rate": 9.870146515688896e-06,
      "loss": 0.0015425698831677437,
      "memory(GiB)": 160.86,
      "step": 595,
      "token_acc": 0.999578947368421,
      "train_speed(iter/s)": 0.04231
    },
    {
      "epoch": 0.2199010445299615,
      "grad_norm": 0.027032975107431412,
      "learning_rate": 9.867964630835742e-06,
      "loss": 0.00022940777707844973,
      "memory(GiB)": 160.86,
      "step": 600,
      "token_acc": 0.9999158320006734,
      "train_speed(iter/s)": 0.042103
    },
    {
      "epoch": 0.22173355323437785,
      "grad_norm": 0.016112059354782104,
      "learning_rate": 9.865764812865113e-06,
      "loss": 0.0013837903738021851,
      "memory(GiB)": 160.86,
      "step": 605,
      "token_acc": 0.9996631862579993,
      "train_speed(iter/s)": 0.042119
    },
    {
      "epoch": 0.22356606193879422,
      "grad_norm": 0.03569135442376137,
      "learning_rate": 9.863547069880928e-06,
      "loss": 0.002841825969517231,
      "memory(GiB)": 160.86,
      "step": 610,
      "token_acc": 0.9993265993265993,
      "train_speed(iter/s)": 0.042143
    },
    {
      "epoch": 0.22539857064321056,
      "grad_norm": 0.04555279016494751,
      "learning_rate": 9.86131141005314e-06,
      "loss": 0.012712681293487548,
      "memory(GiB)": 160.86,
      "step": 615,
      "token_acc": 0.9986531986531987,
      "train_speed(iter/s)": 0.042163
    },
    {
      "epoch": 0.2272310793476269,
      "grad_norm": 0.09330299496650696,
      "learning_rate": 9.859057841617709e-06,
      "loss": 0.007313913106918335,
      "memory(GiB)": 160.86,
      "step": 620,
      "token_acc": 0.9966310115387855,
      "train_speed(iter/s)": 0.042185
    },
    {
      "epoch": 0.22906358805204324,
      "grad_norm": 0.04176206886768341,
      "learning_rate": 9.856786372876565e-06,
      "loss": 0.0030346425250172616,
      "memory(GiB)": 160.86,
      "step": 625,
      "token_acc": 0.9989054475035783,
      "train_speed(iter/s)": 0.042207
    },
    {
      "epoch": 0.23089609675645958,
      "grad_norm": 0.0391584113240242,
      "learning_rate": 9.854497012197581e-06,
      "loss": 0.0021283647045493128,
      "memory(GiB)": 160.86,
      "step": 630,
      "token_acc": 0.999494779386999,
      "train_speed(iter/s)": 0.042231
    },
    {
      "epoch": 0.23272860546087593,
      "grad_norm": 0.06570518761873245,
      "learning_rate": 9.852189768014547e-06,
      "loss": 0.0012692485004663467,
      "memory(GiB)": 160.86,
      "step": 635,
      "token_acc": 0.9994950770007573,
      "train_speed(iter/s)": 0.042249
    },
    {
      "epoch": 0.2345611141652923,
      "grad_norm": 0.04750160127878189,
      "learning_rate": 9.849864648827126e-06,
      "loss": 0.001050265971571207,
      "memory(GiB)": 160.86,
      "step": 640,
      "token_acc": 0.9996630727762803,
      "train_speed(iter/s)": 0.042274
    },
    {
      "epoch": 0.23639362286970864,
      "grad_norm": 0.012142885476350784,
      "learning_rate": 9.847521663200837e-06,
      "loss": 0.00046721328981220723,
      "memory(GiB)": 160.86,
      "step": 645,
      "token_acc": 0.9998315363881402,
      "train_speed(iter/s)": 0.042296
    },
    {
      "epoch": 0.23822613157412498,
      "grad_norm": 0.0755368173122406,
      "learning_rate": 9.845160819767017e-06,
      "loss": 0.0013550316914916038,
      "memory(GiB)": 160.86,
      "step": 650,
      "token_acc": 0.9995790891489182,
      "train_speed(iter/s)": 0.042321
    },
    {
      "epoch": 0.24005864027854132,
      "grad_norm": 0.07237580418586731,
      "learning_rate": 9.842782127222786e-06,
      "loss": 0.002187203988432884,
      "memory(GiB)": 160.86,
      "step": 655,
      "token_acc": 0.9994101786316144,
      "train_speed(iter/s)": 0.042344
    },
    {
      "epoch": 0.24189114898295766,
      "grad_norm": 0.043931830674409866,
      "learning_rate": 9.840385594331022e-06,
      "loss": 0.0009523511864244938,
      "memory(GiB)": 160.86,
      "step": 660,
      "token_acc": 0.9997474534893509,
      "train_speed(iter/s)": 0.042366
    },
    {
      "epoch": 0.243723657687374,
      "grad_norm": 0.008748149499297142,
      "learning_rate": 9.837971229920324e-06,
      "loss": 0.0016139259561896325,
      "memory(GiB)": 160.86,
      "step": 665,
      "token_acc": 0.9994108240047134,
      "train_speed(iter/s)": 0.042378
    },
    {
      "epoch": 0.24555616639179037,
      "grad_norm": 0.12863993644714355,
      "learning_rate": 9.83553904288498e-06,
      "loss": 0.001357206143438816,
      "memory(GiB)": 160.86,
      "step": 670,
      "token_acc": 0.9993265993265993,
      "train_speed(iter/s)": 0.042358
    },
    {
      "epoch": 0.2473886750962067,
      "grad_norm": 0.08388248831033707,
      "learning_rate": 9.833089042184933e-06,
      "loss": 0.0016548488289117812,
      "memory(GiB)": 160.86,
      "step": 675,
      "token_acc": 0.9994950345059754,
      "train_speed(iter/s)": 0.042379
    },
    {
      "epoch": 0.24922118380062305,
      "grad_norm": 0.09960606694221497,
      "learning_rate": 9.830621236845755e-06,
      "loss": 0.0014729213900864125,
      "memory(GiB)": 160.86,
      "step": 680,
      "token_acc": 0.9994103773584906,
      "train_speed(iter/s)": 0.042403
    },
    {
      "epoch": 0.2510536925050394,
      "grad_norm": 0.07054334878921509,
      "learning_rate": 9.828135635958602e-06,
      "loss": 0.0012276002205908298,
      "memory(GiB)": 160.86,
      "step": 685,
      "token_acc": 0.99949499200404,
      "train_speed(iter/s)": 0.042425
    },
    {
      "epoch": 0.25288620120945576,
      "grad_norm": 0.011227499693632126,
      "learning_rate": 9.825632248680195e-06,
      "loss": 0.0014451307244598866,
      "memory(GiB)": 160.86,
      "step": 690,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.042448
    },
    {
      "epoch": 0.2547187099138721,
      "grad_norm": 0.09235574305057526,
      "learning_rate": 9.82311108423277e-06,
      "loss": 0.001263285707682371,
      "memory(GiB)": 160.86,
      "step": 695,
      "token_acc": 0.9995789119083712,
      "train_speed(iter/s)": 0.04247
    },
    {
      "epoch": 0.25655121861828845,
      "grad_norm": 0.045791253447532654,
      "learning_rate": 9.82057215190406e-06,
      "loss": 0.0009290166199207306,
      "memory(GiB)": 160.86,
      "step": 700,
      "token_acc": 0.9998316498316498,
      "train_speed(iter/s)": 0.042485
    },
    {
      "epoch": 0.25838372732270476,
      "grad_norm": 0.07074666768312454,
      "learning_rate": 9.818015461047246e-06,
      "loss": 0.0015341023914515971,
      "memory(GiB)": 160.86,
      "step": 705,
      "token_acc": 0.99949499200404,
      "train_speed(iter/s)": 0.042504
    },
    {
      "epoch": 0.26021623602712113,
      "grad_norm": 0.1540241241455078,
      "learning_rate": 9.815441021080935e-06,
      "loss": 0.0007845636457204819,
      "memory(GiB)": 160.86,
      "step": 710,
      "token_acc": 0.9997473896934995,
      "train_speed(iter/s)": 0.042523
    },
    {
      "epoch": 0.2620487447315375,
      "grad_norm": 0.033406198024749756,
      "learning_rate": 9.812848841489118e-06,
      "loss": 0.0012617891654372216,
      "memory(GiB)": 160.86,
      "step": 715,
      "token_acc": 0.9994950345059754,
      "train_speed(iter/s)": 0.042542
    },
    {
      "epoch": 0.2638812534359538,
      "grad_norm": 0.09797952324151993,
      "learning_rate": 9.810238931821139e-06,
      "loss": 0.0005904140882194043,
      "memory(GiB)": 160.86,
      "step": 720,
      "token_acc": 0.9998315931289997,
      "train_speed(iter/s)": 0.042558
    },
    {
      "epoch": 0.2657137621403702,
      "grad_norm": 0.004131863825023174,
      "learning_rate": 9.807611301691656e-06,
      "loss": 0.0003168722614645958,
      "memory(GiB)": 160.86,
      "step": 725,
      "token_acc": 0.9998316498316498,
      "train_speed(iter/s)": 0.042576
    },
    {
      "epoch": 0.2675462708447865,
      "grad_norm": 0.0872625857591629,
      "learning_rate": 9.804965960780603e-06,
      "loss": 0.0018875803798437119,
      "memory(GiB)": 160.86,
      "step": 730,
      "token_acc": 0.9993262023077571,
      "train_speed(iter/s)": 0.042595
    },
    {
      "epoch": 0.26937877954920286,
      "grad_norm": 0.03825852647423744,
      "learning_rate": 9.80230291883317e-06,
      "loss": 0.0008161487989127636,
      "memory(GiB)": 160.86,
      "step": 735,
      "token_acc": 0.9996634129922585,
      "train_speed(iter/s)": 0.042614
    },
    {
      "epoch": 0.27121128825361923,
      "grad_norm": 0.09421674907207489,
      "learning_rate": 9.799622185659748e-06,
      "loss": 0.0013505241833627224,
      "memory(GiB)": 160.86,
      "step": 740,
      "token_acc": 0.9995793016407236,
      "train_speed(iter/s)": 0.0426
    },
    {
      "epoch": 0.27304379695803555,
      "grad_norm": 0.008914557285606861,
      "learning_rate": 9.7969237711359e-06,
      "loss": 0.0008496672846376896,
      "memory(GiB)": 160.86,
      "step": 745,
      "token_acc": 0.9995792662403231,
      "train_speed(iter/s)": 0.042614
    },
    {
      "epoch": 0.2748763056624519,
      "grad_norm": 0.05403187870979309,
      "learning_rate": 9.79420768520233e-06,
      "loss": 0.00033216315787285564,
      "memory(GiB)": 160.86,
      "step": 750,
      "token_acc": 0.9998315221969506,
      "train_speed(iter/s)": 0.042627
    },
    {
      "epoch": 0.2767088143668682,
      "grad_norm": 0.07824942469596863,
      "learning_rate": 9.791473937864838e-06,
      "loss": 0.0009146830998361111,
      "memory(GiB)": 160.86,
      "step": 755,
      "token_acc": 0.9997474747474747,
      "train_speed(iter/s)": 0.042645
    },
    {
      "epoch": 0.2785413230712846,
      "grad_norm": 0.059788450598716736,
      "learning_rate": 9.788722539194291e-06,
      "loss": 0.0014368345960974692,
      "memory(GiB)": 160.86,
      "step": 760,
      "token_acc": 0.9998316214850985,
      "train_speed(iter/s)": 0.042663
    },
    {
      "epoch": 0.2803738317757009,
      "grad_norm": 0.03711073473095894,
      "learning_rate": 9.785953499326575e-06,
      "loss": 0.0013325980864465237,
      "memory(GiB)": 160.86,
      "step": 765,
      "token_acc": 0.9994953742640875,
      "train_speed(iter/s)": 0.042681
    },
    {
      "epoch": 0.2822063404801173,
      "grad_norm": 0.024719931185245514,
      "learning_rate": 9.783166828462573e-06,
      "loss": 0.002364422380924225,
      "memory(GiB)": 160.86,
      "step": 770,
      "token_acc": 0.9992422328870927,
      "train_speed(iter/s)": 0.0427
    },
    {
      "epoch": 0.28403884918453365,
      "grad_norm": 0.03786981478333473,
      "learning_rate": 9.780362536868113e-06,
      "loss": 0.0009791357442736626,
      "memory(GiB)": 160.86,
      "step": 775,
      "token_acc": 0.9999158178297837,
      "train_speed(iter/s)": 0.042719
    },
    {
      "epoch": 0.28587135788894996,
      "grad_norm": 0.1868947595357895,
      "learning_rate": 9.777540634873939e-06,
      "loss": 0.0009650942869484424,
      "memory(GiB)": 160.86,
      "step": 780,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.042737
    },
    {
      "epoch": 0.28770386659336633,
      "grad_norm": 0.015713131055235863,
      "learning_rate": 9.774701132875665e-06,
      "loss": 0.0007482931017875671,
      "memory(GiB)": 160.86,
      "step": 785,
      "token_acc": 0.9997473045822103,
      "train_speed(iter/s)": 0.042755
    },
    {
      "epoch": 0.28953637529778264,
      "grad_norm": 0.0045456611551344395,
      "learning_rate": 9.771844041333751e-06,
      "loss": 0.0009433764033019542,
      "memory(GiB)": 160.86,
      "step": 790,
      "token_acc": 0.9998316214850985,
      "train_speed(iter/s)": 0.042771
    },
    {
      "epoch": 0.291368884002199,
      "grad_norm": 0.01577194780111313,
      "learning_rate": 9.768969370773446e-06,
      "loss": 0.0004402685910463333,
      "memory(GiB)": 160.86,
      "step": 795,
      "token_acc": 0.9999158390843292,
      "train_speed(iter/s)": 0.042788
    },
    {
      "epoch": 0.2932013927066154,
      "grad_norm": 0.022222327068448067,
      "learning_rate": 9.766077131784764e-06,
      "loss": 0.0012076054699718952,
      "memory(GiB)": 160.86,
      "step": 800,
      "token_acc": 0.999663129526697,
      "train_speed(iter/s)": 0.042807
    },
    {
      "epoch": 0.2950339014110317,
      "grad_norm": 0.1063130721449852,
      "learning_rate": 9.763167335022437e-06,
      "loss": 0.0008463741280138493,
      "memory(GiB)": 160.86,
      "step": 805,
      "token_acc": 0.9997475597441938,
      "train_speed(iter/s)": 0.042824
    },
    {
      "epoch": 0.29686641011544807,
      "grad_norm": 0.018112968653440475,
      "learning_rate": 9.760239991205878e-06,
      "loss": 0.0014921230264008044,
      "memory(GiB)": 160.86,
      "step": 810,
      "token_acc": 0.9998317206562894,
      "train_speed(iter/s)": 0.042841
    },
    {
      "epoch": 0.2986989188198644,
      "grad_norm": 0.17134827375411987,
      "learning_rate": 9.757295111119142e-06,
      "loss": 0.0017302492633461952,
      "memory(GiB)": 160.86,
      "step": 815,
      "token_acc": 0.9994105263157895,
      "train_speed(iter/s)": 0.042859
    },
    {
      "epoch": 0.30053142752428075,
      "grad_norm": 0.1881178468465805,
      "learning_rate": 9.75433270561089e-06,
      "loss": 0.0018818458542227746,
      "memory(GiB)": 160.86,
      "step": 820,
      "token_acc": 0.9994947368421052,
      "train_speed(iter/s)": 0.042876
    },
    {
      "epoch": 0.30236393622869706,
      "grad_norm": 0.0701608955860138,
      "learning_rate": 9.751352785594337e-06,
      "loss": 0.0015649979934096337,
      "memory(GiB)": 160.86,
      "step": 825,
      "token_acc": 0.9994106255788499,
      "train_speed(iter/s)": 0.042892
    },
    {
      "epoch": 0.30419644493311343,
      "grad_norm": 0.11719143390655518,
      "learning_rate": 9.748355362047228e-06,
      "loss": 0.0022079024463891985,
      "memory(GiB)": 160.86,
      "step": 830,
      "token_acc": 0.9993266560053867,
      "train_speed(iter/s)": 0.042901
    },
    {
      "epoch": 0.3060289536375298,
      "grad_norm": 0.052010610699653625,
      "learning_rate": 9.745340446011782e-06,
      "loss": 0.0014782694168388843,
      "memory(GiB)": 160.86,
      "step": 835,
      "token_acc": 0.9994952044422009,
      "train_speed(iter/s)": 0.042913
    },
    {
      "epoch": 0.3078614623419461,
      "grad_norm": 0.04955873638391495,
      "learning_rate": 9.742308048594665e-06,
      "loss": 0.0016095375642180443,
      "memory(GiB)": 160.86,
      "step": 840,
      "token_acc": 0.9994949069787019,
      "train_speed(iter/s)": 0.04293
    },
    {
      "epoch": 0.3096939710463625,
      "grad_norm": 0.03515881672501564,
      "learning_rate": 9.73925818096694e-06,
      "loss": 0.0010076938197016716,
      "memory(GiB)": 160.86,
      "step": 845,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.042945
    },
    {
      "epoch": 0.3115264797507788,
      "grad_norm": 0.05620809271931648,
      "learning_rate": 9.736190854364025e-06,
      "loss": 0.0021063588559627534,
      "memory(GiB)": 160.86,
      "step": 850,
      "token_acc": 0.999326485940394,
      "train_speed(iter/s)": 0.042961
    },
    {
      "epoch": 0.31335898845519516,
      "grad_norm": 0.03683305159211159,
      "learning_rate": 9.733106080085662e-06,
      "loss": 0.0005148151423782111,
      "memory(GiB)": 160.86,
      "step": 855,
      "token_acc": 0.9997475385003787,
      "train_speed(iter/s)": 0.042977
    },
    {
      "epoch": 0.31519149715961153,
      "grad_norm": 0.029852213338017464,
      "learning_rate": 9.730003869495863e-06,
      "loss": 0.0004310948308557272,
      "memory(GiB)": 160.86,
      "step": 860,
      "token_acc": 0.9998316073082428,
      "train_speed(iter/s)": 0.042993
    },
    {
      "epoch": 0.31702400586402785,
      "grad_norm": 0.0037861524615436792,
      "learning_rate": 9.726884234022877e-06,
      "loss": 0.0005989938508719206,
      "memory(GiB)": 160.86,
      "step": 865,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.042978
    },
    {
      "epoch": 0.3188565145684442,
      "grad_norm": 0.04197857156395912,
      "learning_rate": 9.723747185159146e-06,
      "loss": 0.0018272759392857552,
      "memory(GiB)": 160.86,
      "step": 870,
      "token_acc": 0.9996634413125789,
      "train_speed(iter/s)": 0.042973
    },
    {
      "epoch": 0.32068902327286053,
      "grad_norm": 0.04336322471499443,
      "learning_rate": 9.720592734461257e-06,
      "loss": 0.0018274670466780663,
      "memory(GiB)": 160.86,
      "step": 875,
      "token_acc": 0.999578947368421,
      "train_speed(iter/s)": 0.042986
    },
    {
      "epoch": 0.3225215319772769,
      "grad_norm": 0.007882770150899887,
      "learning_rate": 9.717420893549902e-06,
      "loss": 0.0010360433720052243,
      "memory(GiB)": 160.86,
      "step": 880,
      "token_acc": 0.9994951619688683,
      "train_speed(iter/s)": 0.042996
    },
    {
      "epoch": 0.3243540406816932,
      "grad_norm": 0.03858296945691109,
      "learning_rate": 9.714231674109845e-06,
      "loss": 0.0016417885199189186,
      "memory(GiB)": 160.86,
      "step": 885,
      "token_acc": 0.9991580365412142,
      "train_speed(iter/s)": 0.042993
    },
    {
      "epoch": 0.3261865493861096,
      "grad_norm": 0.016526591032743454,
      "learning_rate": 9.711025087889866e-06,
      "loss": 0.0008385243825614452,
      "memory(GiB)": 160.86,
      "step": 890,
      "token_acc": 0.9999158461667929,
      "train_speed(iter/s)": 0.042974
    },
    {
      "epoch": 0.32801905809052595,
      "grad_norm": 0.011745758354663849,
      "learning_rate": 9.70780114670272e-06,
      "loss": 0.0007513574324548245,
      "memory(GiB)": 160.86,
      "step": 895,
      "token_acc": 0.9997475172529877,
      "train_speed(iter/s)": 0.042982
    },
    {
      "epoch": 0.32985156679494226,
      "grad_norm": 0.032515864819288254,
      "learning_rate": 9.704559862425101e-06,
      "loss": 0.000879857875406742,
      "memory(GiB)": 160.86,
      "step": 900,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.042993
    },
    {
      "epoch": 0.33168407549935863,
      "grad_norm": 0.11071360856294632,
      "learning_rate": 9.701301246997592e-06,
      "loss": 0.0013037783093750477,
      "memory(GiB)": 160.86,
      "step": 905,
      "token_acc": 0.9994106751978448,
      "train_speed(iter/s)": 0.043
    },
    {
      "epoch": 0.33351658420377495,
      "grad_norm": 0.03765702247619629,
      "learning_rate": 9.698025312424619e-06,
      "loss": 0.0015159587375819684,
      "memory(GiB)": 160.86,
      "step": 910,
      "token_acc": 0.999579443182774,
      "train_speed(iter/s)": 0.043008
    },
    {
      "epoch": 0.3353490929081913,
      "grad_norm": 0.008713570423424244,
      "learning_rate": 9.694732070774415e-06,
      "loss": 0.00026825035456568,
      "memory(GiB)": 160.86,
      "step": 915,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.04298
    },
    {
      "epoch": 0.3371816016126077,
      "grad_norm": 0.07823354005813599,
      "learning_rate": 9.691421534178966e-06,
      "loss": 0.001245938241481781,
      "memory(GiB)": 160.86,
      "step": 920,
      "token_acc": 0.9994108240047134,
      "train_speed(iter/s)": 0.042955
    },
    {
      "epoch": 0.339014110317024,
      "grad_norm": 0.04400285705924034,
      "learning_rate": 9.688093714833975e-06,
      "loss": 0.000505279190838337,
      "memory(GiB)": 160.86,
      "step": 925,
      "token_acc": 0.9998317064961293,
      "train_speed(iter/s)": 0.042963
    },
    {
      "epoch": 0.34084661902144037,
      "grad_norm": 0.05997716262936592,
      "learning_rate": 9.68474862499881e-06,
      "loss": 0.001019585132598877,
      "memory(GiB)": 160.86,
      "step": 930,
      "token_acc": 0.9996631578947368,
      "train_speed(iter/s)": 0.042968
    },
    {
      "epoch": 0.3426791277258567,
      "grad_norm": 0.17811425030231476,
      "learning_rate": 9.681386276996462e-06,
      "loss": 0.0005352488718926906,
      "memory(GiB)": 160.86,
      "step": 935,
      "token_acc": 0.999831734814067,
      "train_speed(iter/s)": 0.042975
    },
    {
      "epoch": 0.34451163643027305,
      "grad_norm": 0.2344316691160202,
      "learning_rate": 9.678006683213503e-06,
      "loss": 0.0009379078634083271,
      "memory(GiB)": 160.86,
      "step": 940,
      "token_acc": 0.9997475385003787,
      "train_speed(iter/s)": 0.04297
    },
    {
      "epoch": 0.34634414513468936,
      "grad_norm": 0.06496769934892654,
      "learning_rate": 9.674609856100032e-06,
      "loss": 0.0008637402206659317,
      "memory(GiB)": 160.86,
      "step": 945,
      "token_acc": 0.9997474747474747,
      "train_speed(iter/s)": 0.04298
    },
    {
      "epoch": 0.34817665383910573,
      "grad_norm": 0.0862952470779419,
      "learning_rate": 9.671195808169639e-06,
      "loss": 0.0011458213441073895,
      "memory(GiB)": 160.86,
      "step": 950,
      "token_acc": 0.9997475172529877,
      "train_speed(iter/s)": 0.042994
    },
    {
      "epoch": 0.3500091625435221,
      "grad_norm": 0.016611328348517418,
      "learning_rate": 9.667764551999346e-06,
      "loss": 0.0010181719437241555,
      "memory(GiB)": 160.86,
      "step": 955,
      "token_acc": 0.999663242970197,
      "train_speed(iter/s)": 0.04297
    },
    {
      "epoch": 0.3518416712479384,
      "grad_norm": 0.08347468078136444,
      "learning_rate": 9.664316100229578e-06,
      "loss": 0.0007937697693705559,
      "memory(GiB)": 160.86,
      "step": 960,
      "token_acc": 0.9995793724236561,
      "train_speed(iter/s)": 0.042953
    },
    {
      "epoch": 0.3536741799523548,
      "grad_norm": 0.07462402433156967,
      "learning_rate": 9.660850465564101e-06,
      "loss": 0.0014566186815500259,
      "memory(GiB)": 160.86,
      "step": 965,
      "token_acc": 0.9995790537127462,
      "train_speed(iter/s)": 0.042967
    },
    {
      "epoch": 0.3555066886567711,
      "grad_norm": 0.031168634071946144,
      "learning_rate": 9.657367660769984e-06,
      "loss": 0.0008765817619860172,
      "memory(GiB)": 160.86,
      "step": 970,
      "token_acc": 0.9996635828427249,
      "train_speed(iter/s)": 0.04298
    },
    {
      "epoch": 0.35733919736118747,
      "grad_norm": 0.10647280514240265,
      "learning_rate": 9.653867698677543e-06,
      "loss": 0.0011190660297870636,
      "memory(GiB)": 160.86,
      "step": 975,
      "token_acc": 0.9996634979389248,
      "train_speed(iter/s)": 0.042993
    },
    {
      "epoch": 0.35917170606560384,
      "grad_norm": 0.041436877101659775,
      "learning_rate": 9.650350592180312e-06,
      "loss": 0.0012339851818978786,
      "memory(GiB)": 160.86,
      "step": 980,
      "token_acc": 0.9994108735903047,
      "train_speed(iter/s)": 0.043006
    },
    {
      "epoch": 0.36100421477002015,
      "grad_norm": 0.056029047816991806,
      "learning_rate": 9.646816354234968e-06,
      "loss": 0.0012508154846727847,
      "memory(GiB)": 160.86,
      "step": 985,
      "token_acc": 0.9996634129922585,
      "train_speed(iter/s)": 0.043019
    },
    {
      "epoch": 0.3628367234744365,
      "grad_norm": 0.016829386353492737,
      "learning_rate": 9.643264997861312e-06,
      "loss": 0.0006543456576764584,
      "memory(GiB)": 160.86,
      "step": 990,
      "token_acc": 0.9995789119083712,
      "train_speed(iter/s)": 0.043032
    },
    {
      "epoch": 0.36466923217885283,
      "grad_norm": 0.035343799740076065,
      "learning_rate": 9.6396965361422e-06,
      "loss": 0.0010605846531689168,
      "memory(GiB)": 160.86,
      "step": 995,
      "token_acc": 0.9996632146164857,
      "train_speed(iter/s)": 0.043044
    },
    {
      "epoch": 0.3665017408832692,
      "grad_norm": 0.1007576435804367,
      "learning_rate": 9.636110982223505e-06,
      "loss": 0.0017275510355830193,
      "memory(GiB)": 160.86,
      "step": 1000,
      "token_acc": 0.9993263157894737,
      "train_speed(iter/s)": 0.043052
    },
    {
      "epoch": 0.3665017408832692,
      "eval_loss": 0.0009223763481713831,
      "eval_runtime": 173.3991,
      "eval_samples_per_second": 2.537,
      "eval_steps_per_second": 2.537,
      "eval_token_acc": 0.9996633151217422,
      "step": 1000
    },
    {
      "epoch": 0.3683342495876855,
      "grad_norm": 0.005491136573255062,
      "learning_rate": 9.632508349314066e-06,
      "loss": 0.0003129460848867893,
      "memory(GiB)": 160.86,
      "step": 1005,
      "token_acc": 0.9997021844125912,
      "train_speed(iter/s)": 0.041292
    },
    {
      "epoch": 0.3701667582921019,
      "grad_norm": 0.052943065762519836,
      "learning_rate": 9.628888650685642e-06,
      "loss": 0.0011203167960047722,
      "memory(GiB)": 160.86,
      "step": 1010,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.041243
    },
    {
      "epoch": 0.37199926699651825,
      "grad_norm": 0.03638750687241554,
      "learning_rate": 9.625251899672852e-06,
      "loss": 0.0004535942804068327,
      "memory(GiB)": 160.86,
      "step": 1015,
      "token_acc": 0.9997474747474747,
      "train_speed(iter/s)": 0.041263
    },
    {
      "epoch": 0.37383177570093457,
      "grad_norm": 0.010707657784223557,
      "learning_rate": 9.621598109673142e-06,
      "loss": 0.00024845553562045095,
      "memory(GiB)": 160.86,
      "step": 1020,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.041283
    },
    {
      "epoch": 0.37566428440535093,
      "grad_norm": 0.003029848216101527,
      "learning_rate": 9.617927294146726e-06,
      "loss": 0.000255924928933382,
      "memory(GiB)": 160.86,
      "step": 1025,
      "token_acc": 0.9999158178297837,
      "train_speed(iter/s)": 0.041303
    },
    {
      "epoch": 0.37749679310976725,
      "grad_norm": 0.002139889169484377,
      "learning_rate": 9.614239466616541e-06,
      "loss": 0.001936671696603298,
      "memory(GiB)": 160.86,
      "step": 1030,
      "token_acc": 0.9996633846671716,
      "train_speed(iter/s)": 0.041322
    },
    {
      "epoch": 0.3793293018141836,
      "grad_norm": 0.033104073256254196,
      "learning_rate": 9.61053464066819e-06,
      "loss": 0.0009706121869385243,
      "memory(GiB)": 160.86,
      "step": 1035,
      "token_acc": 0.9996632146164857,
      "train_speed(iter/s)": 0.041341
    },
    {
      "epoch": 0.3811618105186,
      "grad_norm": 0.02874094434082508,
      "learning_rate": 9.606812829949896e-06,
      "loss": 0.0007171142846345901,
      "memory(GiB)": 160.86,
      "step": 1040,
      "token_acc": 0.9999158178297837,
      "train_speed(iter/s)": 0.041359
    },
    {
      "epoch": 0.3829943192230163,
      "grad_norm": 0.13675667345523834,
      "learning_rate": 9.603074048172458e-06,
      "loss": 0.0008686968125402927,
      "memory(GiB)": 160.86,
      "step": 1045,
      "token_acc": 0.9998317489694625,
      "train_speed(iter/s)": 0.041378
    },
    {
      "epoch": 0.38482682792743267,
      "grad_norm": 0.325898677110672,
      "learning_rate": 9.599318309109191e-06,
      "loss": 0.001396147720515728,
      "memory(GiB)": 160.86,
      "step": 1050,
      "token_acc": 0.9995791245791246,
      "train_speed(iter/s)": 0.041398
    },
    {
      "epoch": 0.386659336631849,
      "grad_norm": 0.06272176653146744,
      "learning_rate": 9.595545626595878e-06,
      "loss": 0.002794544957578182,
      "memory(GiB)": 160.86,
      "step": 1055,
      "token_acc": 0.9992422966829433,
      "train_speed(iter/s)": 0.041416
    },
    {
      "epoch": 0.38849184533626535,
      "grad_norm": 0.019762301817536354,
      "learning_rate": 9.591756014530723e-06,
      "loss": 0.0009371510706841946,
      "memory(GiB)": 160.86,
      "step": 1060,
      "token_acc": 0.9996630727762803,
      "train_speed(iter/s)": 0.041434
    },
    {
      "epoch": 0.3903243540406817,
      "grad_norm": 0.09259835630655289,
      "learning_rate": 9.587949486874295e-06,
      "loss": 0.0013479561544954776,
      "memory(GiB)": 160.86,
      "step": 1065,
      "token_acc": 0.9995791245791246,
      "train_speed(iter/s)": 0.041453
    },
    {
      "epoch": 0.39215686274509803,
      "grad_norm": 0.05826210230588913,
      "learning_rate": 9.58412605764948e-06,
      "loss": 0.00075059924274683,
      "memory(GiB)": 160.86,
      "step": 1070,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.041452
    },
    {
      "epoch": 0.3939893714495144,
      "grad_norm": 0.02435746043920517,
      "learning_rate": 9.580285740941425e-06,
      "loss": 0.0010668656788766385,
      "memory(GiB)": 160.86,
      "step": 1075,
      "token_acc": 0.9994948644552955,
      "train_speed(iter/s)": 0.04147
    },
    {
      "epoch": 0.3958218801539307,
      "grad_norm": 0.06046979874372482,
      "learning_rate": 9.57642855089749e-06,
      "loss": 0.0006216964218765497,
      "memory(GiB)": 160.86,
      "step": 1080,
      "token_acc": 0.9995790891489182,
      "train_speed(iter/s)": 0.041489
    },
    {
      "epoch": 0.3976543888583471,
      "grad_norm": 0.02380959317088127,
      "learning_rate": 9.572554501727198e-06,
      "loss": 0.000693302508443594,
      "memory(GiB)": 160.86,
      "step": 1085,
      "token_acc": 0.999663356337317,
      "train_speed(iter/s)": 0.041506
    },
    {
      "epoch": 0.3994868975627634,
      "grad_norm": 0.015010896138846874,
      "learning_rate": 9.568663607702174e-06,
      "loss": 0.0005827041808515787,
      "memory(GiB)": 160.86,
      "step": 1090,
      "token_acc": 0.9997476446837147,
      "train_speed(iter/s)": 0.041523
    },
    {
      "epoch": 0.40131940626717977,
      "grad_norm": 0.17055855691432953,
      "learning_rate": 9.564755883156103e-06,
      "loss": 0.0010279595851898193,
      "memory(GiB)": 160.86,
      "step": 1095,
      "token_acc": 0.9995791600033668,
      "train_speed(iter/s)": 0.041535
    },
    {
      "epoch": 0.40315191497159614,
      "grad_norm": 0.0005144431488588452,
      "learning_rate": 9.560831342484668e-06,
      "loss": 0.00026263915933668616,
      "memory(GiB)": 160.86,
      "step": 1100,
      "token_acc": 0.9999158249158249,
      "train_speed(iter/s)": 0.041545
    },
    {
      "epoch": 0.40498442367601245,
      "grad_norm": 0.019269630312919617,
      "learning_rate": 9.556890000145503e-06,
      "loss": 0.0010970150120556354,
      "memory(GiB)": 160.86,
      "step": 1105,
      "token_acc": 0.999663356337317,
      "train_speed(iter/s)": 0.041546
    },
    {
      "epoch": 0.4068169323804288,
      "grad_norm": 0.037301257252693176,
      "learning_rate": 9.552931870658136e-06,
      "loss": 0.001028469391167164,
      "memory(GiB)": 160.86,
      "step": 1110,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.041562
    },
    {
      "epoch": 0.40864944108484513,
      "grad_norm": 0.006164327263832092,
      "learning_rate": 9.54895696860394e-06,
      "loss": 0.0005135733168572188,
      "memory(GiB)": 160.86,
      "step": 1115,
      "token_acc": 0.9998317064961293,
      "train_speed(iter/s)": 0.041578
    },
    {
      "epoch": 0.4104819497892615,
      "grad_norm": 0.1576082557439804,
      "learning_rate": 9.544965308626075e-06,
      "loss": 0.001076418813318014,
      "memory(GiB)": 160.86,
      "step": 1120,
      "token_acc": 0.9996634413125789,
      "train_speed(iter/s)": 0.041593
    },
    {
      "epoch": 0.41231445849367787,
      "grad_norm": 0.014838850125670433,
      "learning_rate": 9.540956905429435e-06,
      "loss": 0.000989390444010496,
      "memory(GiB)": 160.86,
      "step": 1125,
      "token_acc": 0.9994946091644205,
      "train_speed(iter/s)": 0.041608
    },
    {
      "epoch": 0.4141469671980942,
      "grad_norm": 0.014855766668915749,
      "learning_rate": 9.536931773780598e-06,
      "loss": 0.0015475031919777392,
      "memory(GiB)": 160.86,
      "step": 1130,
      "token_acc": 0.9994103276893269,
      "train_speed(iter/s)": 0.041623
    },
    {
      "epoch": 0.41597947590251055,
      "grad_norm": 0.019349105656147003,
      "learning_rate": 9.53288992850776e-06,
      "loss": 0.0005111652426421642,
      "memory(GiB)": 160.86,
      "step": 1135,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.041628
    },
    {
      "epoch": 0.41781198460692687,
      "grad_norm": 0.03461524471640587,
      "learning_rate": 9.528831384500699e-06,
      "loss": 0.0004519184119999409,
      "memory(GiB)": 160.86,
      "step": 1140,
      "token_acc": 0.9999158036541214,
      "train_speed(iter/s)": 0.041643
    },
    {
      "epoch": 0.41964449331134324,
      "grad_norm": 0.15801462531089783,
      "learning_rate": 9.5247561567107e-06,
      "loss": 0.00042958445847034453,
      "memory(GiB)": 160.86,
      "step": 1145,
      "token_acc": 0.9997474322276477,
      "train_speed(iter/s)": 0.041646
    },
    {
      "epoch": 0.42147700201575955,
      "grad_norm": 0.04607151448726654,
      "learning_rate": 9.520664260150513e-06,
      "loss": 0.0018787598237395287,
      "memory(GiB)": 160.86,
      "step": 1150,
      "token_acc": 0.9995792662403231,
      "train_speed(iter/s)": 0.04166
    },
    {
      "epoch": 0.4233095107201759,
      "grad_norm": 0.0973573699593544,
      "learning_rate": 9.5165557098943e-06,
      "loss": 0.0009789202362298966,
      "memory(GiB)": 160.86,
      "step": 1155,
      "token_acc": 0.9997473684210526,
      "train_speed(iter/s)": 0.041675
    },
    {
      "epoch": 0.4251420194245923,
      "grad_norm": 0.038962222635746,
      "learning_rate": 9.512430521077565e-06,
      "loss": 0.0009090069681406022,
      "memory(GiB)": 160.86,
      "step": 1160,
      "token_acc": 0.9997473896934995,
      "train_speed(iter/s)": 0.041686
    },
    {
      "epoch": 0.4269745281290086,
      "grad_norm": 0.010646538808941841,
      "learning_rate": 9.508288708897109e-06,
      "loss": 0.00033488136250525713,
      "memory(GiB)": 160.86,
      "step": 1165,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.041701
    },
    {
      "epoch": 0.42880703683342497,
      "grad_norm": 0.0063909804448485374,
      "learning_rate": 9.504130288610972e-06,
      "loss": 0.0002777322195470333,
      "memory(GiB)": 160.86,
      "step": 1170,
      "token_acc": 0.9999158178297837,
      "train_speed(iter/s)": 0.041717
    },
    {
      "epoch": 0.4306395455378413,
      "grad_norm": 0.0029652463272213936,
      "learning_rate": 9.499955275538384e-06,
      "loss": 0.0006769481580704451,
      "memory(GiB)": 160.86,
      "step": 1175,
      "token_acc": 0.9998316214850985,
      "train_speed(iter/s)": 0.041732
    },
    {
      "epoch": 0.43247205424225765,
      "grad_norm": 0.03148781880736351,
      "learning_rate": 9.495763685059689e-06,
      "loss": 0.0021369663998484613,
      "memory(GiB)": 160.86,
      "step": 1180,
      "token_acc": 0.9996631862579993,
      "train_speed(iter/s)": 0.041747
    },
    {
      "epoch": 0.434304562946674,
      "grad_norm": 0.0476820208132267,
      "learning_rate": 9.49155553261631e-06,
      "loss": 0.0006943107582628727,
      "memory(GiB)": 160.86,
      "step": 1185,
      "token_acc": 0.9999157610984752,
      "train_speed(iter/s)": 0.041763
    },
    {
      "epoch": 0.43613707165109034,
      "grad_norm": 0.006549006327986717,
      "learning_rate": 9.487330833710678e-06,
      "loss": 0.00024927293416112664,
      "memory(GiB)": 160.86,
      "step": 1190,
      "token_acc": 0.9999158532480646,
      "train_speed(iter/s)": 0.041649
    },
    {
      "epoch": 0.4379695803555067,
      "grad_norm": 0.030179157853126526,
      "learning_rate": 9.48308960390618e-06,
      "loss": 0.0010321117006242275,
      "memory(GiB)": 160.86,
      "step": 1195,
      "token_acc": 0.9997475597441938,
      "train_speed(iter/s)": 0.041664
    },
    {
      "epoch": 0.439802089059923,
      "grad_norm": 0.0033925846219062805,
      "learning_rate": 9.478831858827105e-06,
      "loss": 0.00027046091854572297,
      "memory(GiB)": 160.86,
      "step": 1200,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.041679
    },
    {
      "epoch": 0.4416345977643394,
      "grad_norm": 0.07267381250858307,
      "learning_rate": 9.474557614158575e-06,
      "loss": 0.0008655142039060593,
      "memory(GiB)": 160.86,
      "step": 1205,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.041695
    },
    {
      "epoch": 0.4434671064687557,
      "grad_norm": 0.006699859630316496,
      "learning_rate": 9.470266885646504e-06,
      "loss": 0.0006839127279818058,
      "memory(GiB)": 160.86,
      "step": 1210,
      "token_acc": 0.9998316498316498,
      "train_speed(iter/s)": 0.04171
    },
    {
      "epoch": 0.44529961517317207,
      "grad_norm": 0.01745425909757614,
      "learning_rate": 9.465959689097525e-06,
      "loss": 0.0009552924893796444,
      "memory(GiB)": 160.86,
      "step": 1215,
      "token_acc": 0.9997473896934995,
      "train_speed(iter/s)": 0.041723
    },
    {
      "epoch": 0.44713212387758844,
      "grad_norm": 0.018873147666454315,
      "learning_rate": 9.461636040378941e-06,
      "loss": 0.0004271782469004393,
      "memory(GiB)": 160.86,
      "step": 1220,
      "token_acc": 0.9998315789473684,
      "train_speed(iter/s)": 0.04171
    },
    {
      "epoch": 0.44896463258200475,
      "grad_norm": 0.030013209208846092,
      "learning_rate": 9.45729595541866e-06,
      "loss": 0.0011812681332230568,
      "memory(GiB)": 160.86,
      "step": 1225,
      "token_acc": 0.9996633280026934,
      "train_speed(iter/s)": 0.041724
    },
    {
      "epoch": 0.4507971412864211,
      "grad_norm": 0.0008936990634538233,
      "learning_rate": 9.452939450205139e-06,
      "loss": 0.0004920902196317911,
      "memory(GiB)": 160.86,
      "step": 1230,
      "token_acc": 0.9996634129922585,
      "train_speed(iter/s)": 0.041738
    },
    {
      "epoch": 0.45262964999083743,
      "grad_norm": 0.06023690477013588,
      "learning_rate": 9.448566540787331e-06,
      "loss": 0.0010696605779230595,
      "memory(GiB)": 160.86,
      "step": 1235,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.041753
    },
    {
      "epoch": 0.4544621586952538,
      "grad_norm": 0.05453835055232048,
      "learning_rate": 9.444177243274619e-06,
      "loss": 0.0011446685530245304,
      "memory(GiB)": 160.86,
      "step": 1240,
      "token_acc": 0.9994107248084856,
      "train_speed(iter/s)": 0.041767
    },
    {
      "epoch": 0.4562946673996702,
      "grad_norm": 0.06793410331010818,
      "learning_rate": 9.43977157383675e-06,
      "loss": 0.0017616702243685722,
      "memory(GiB)": 160.86,
      "step": 1245,
      "token_acc": 0.9994109231675503,
      "train_speed(iter/s)": 0.04178
    },
    {
      "epoch": 0.4581271761040865,
      "grad_norm": 0.03625203296542168,
      "learning_rate": 9.435349548703796e-06,
      "loss": 0.000555843859910965,
      "memory(GiB)": 160.86,
      "step": 1250,
      "token_acc": 0.9998317489694625,
      "train_speed(iter/s)": 0.041794
    },
    {
      "epoch": 0.45995968480850286,
      "grad_norm": 0.08264432102441788,
      "learning_rate": 9.430911184166074e-06,
      "loss": 0.0007446614094078541,
      "memory(GiB)": 160.86,
      "step": 1255,
      "token_acc": 0.9996634696281339,
      "train_speed(iter/s)": 0.041808
    },
    {
      "epoch": 0.46179219351291917,
      "grad_norm": 0.03210179880261421,
      "learning_rate": 9.426456496574095e-06,
      "loss": 0.0009373857639729977,
      "memory(GiB)": 160.86,
      "step": 1260,
      "token_acc": 0.9998315931289997,
      "train_speed(iter/s)": 0.041821
    },
    {
      "epoch": 0.46362470221733554,
      "grad_norm": 0.047844789922237396,
      "learning_rate": 9.421985502338505e-06,
      "loss": 0.0005674117710441351,
      "memory(GiB)": 160.86,
      "step": 1265,
      "token_acc": 0.9997473258654089,
      "train_speed(iter/s)": 0.041818
    },
    {
      "epoch": 0.46545721092175185,
      "grad_norm": 0.10654474049806595,
      "learning_rate": 9.417498217930017e-06,
      "loss": 0.0010964240878820418,
      "memory(GiB)": 160.86,
      "step": 1270,
      "token_acc": 0.9994948644552955,
      "train_speed(iter/s)": 0.04183
    },
    {
      "epoch": 0.4672897196261682,
      "grad_norm": 0.09114305675029755,
      "learning_rate": 9.412994659879362e-06,
      "loss": 0.0010675345547497272,
      "memory(GiB)": 160.86,
      "step": 1275,
      "token_acc": 0.9997476022211005,
      "train_speed(iter/s)": 0.041843
    },
    {
      "epoch": 0.4691222283305846,
      "grad_norm": 0.01834912970662117,
      "learning_rate": 9.408474844777218e-06,
      "loss": 0.0008592868223786354,
      "memory(GiB)": 160.86,
      "step": 1280,
      "token_acc": 0.9996632146164857,
      "train_speed(iter/s)": 0.041856
    },
    {
      "epoch": 0.4709547370350009,
      "grad_norm": 0.057866550981998444,
      "learning_rate": 9.403938789274152e-06,
      "loss": 0.0005749462172389031,
      "memory(GiB)": 160.86,
      "step": 1285,
      "token_acc": 0.9999158320006734,
      "train_speed(iter/s)": 0.041858
    },
    {
      "epoch": 0.4727872457394173,
      "grad_norm": 0.06462471187114716,
      "learning_rate": 9.39938651008056e-06,
      "loss": 0.00032207604963332417,
      "memory(GiB)": 160.86,
      "step": 1290,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.041871
    },
    {
      "epoch": 0.4746197544438336,
      "grad_norm": 0.13423164188861847,
      "learning_rate": 9.394818023966604e-06,
      "loss": 0.0010271795094013215,
      "memory(GiB)": 160.86,
      "step": 1295,
      "token_acc": 0.9997475172529877,
      "train_speed(iter/s)": 0.041884
    },
    {
      "epoch": 0.47645226314824995,
      "grad_norm": 0.08763778209686279,
      "learning_rate": 9.39023334776215e-06,
      "loss": 0.0028607085347175597,
      "memory(GiB)": 160.86,
      "step": 1300,
      "token_acc": 0.9993261455525606,
      "train_speed(iter/s)": 0.041897
    },
    {
      "epoch": 0.4782847718526663,
      "grad_norm": 0.002933151787146926,
      "learning_rate": 9.385632498356713e-06,
      "loss": 0.00027030634228140114,
      "memory(GiB)": 160.86,
      "step": 1305,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.041909
    },
    {
      "epoch": 0.48011728055708264,
      "grad_norm": 0.04423481225967407,
      "learning_rate": 9.381015492699379e-06,
      "loss": 0.00081101693212986,
      "memory(GiB)": 160.86,
      "step": 1310,
      "token_acc": 0.9997474747474747,
      "train_speed(iter/s)": 0.041916
    },
    {
      "epoch": 0.481949789261499,
      "grad_norm": 0.02344198152422905,
      "learning_rate": 9.376382347798756e-06,
      "loss": 0.0003832927206531167,
      "memory(GiB)": 160.86,
      "step": 1315,
      "token_acc": 0.9998316073082428,
      "train_speed(iter/s)": 0.041926
    },
    {
      "epoch": 0.4837822979659153,
      "grad_norm": 0.016795309260487556,
      "learning_rate": 9.371733080722911e-06,
      "loss": 0.00048357550986111164,
      "memory(GiB)": 160.86,
      "step": 1320,
      "token_acc": 0.9998315789473684,
      "train_speed(iter/s)": 0.041939
    },
    {
      "epoch": 0.4856148066703317,
      "grad_norm": 0.09421277046203613,
      "learning_rate": 9.3670677085993e-06,
      "loss": 0.0011711867526173591,
      "memory(GiB)": 160.86,
      "step": 1325,
      "token_acc": 0.9997474322276477,
      "train_speed(iter/s)": 0.04195
    },
    {
      "epoch": 0.487447315374748,
      "grad_norm": 0.18248307704925537,
      "learning_rate": 9.362386248614706e-06,
      "loss": 0.0005028956104069949,
      "memory(GiB)": 160.86,
      "step": 1330,
      "token_acc": 0.9998316923335858,
      "train_speed(iter/s)": 0.041963
    },
    {
      "epoch": 0.48927982407916437,
      "grad_norm": 0.04889710247516632,
      "learning_rate": 9.357688718015185e-06,
      "loss": 0.0029960500076413156,
      "memory(GiB)": 160.86,
      "step": 1335,
      "token_acc": 0.9992425517589631,
      "train_speed(iter/s)": 0.041975
    },
    {
      "epoch": 0.49111233278358074,
      "grad_norm": 0.01644892431795597,
      "learning_rate": 9.35297513410599e-06,
      "loss": 0.001054964866489172,
      "memory(GiB)": 160.86,
      "step": 1340,
      "token_acc": 0.999663242970197,
      "train_speed(iter/s)": 0.041987
    },
    {
      "epoch": 0.49294484148799705,
      "grad_norm": 0.06923960894346237,
      "learning_rate": 9.348245514251515e-06,
      "loss": 0.0015572577714920044,
      "memory(GiB)": 160.86,
      "step": 1345,
      "token_acc": 0.99949499200404,
      "train_speed(iter/s)": 0.041999
    },
    {
      "epoch": 0.4947773501924134,
      "grad_norm": 0.4345010817050934,
      "learning_rate": 9.343499875875226e-06,
      "loss": 0.0008648891933262348,
      "memory(GiB)": 160.86,
      "step": 1350,
      "token_acc": 0.9998317914213625,
      "train_speed(iter/s)": 0.042012
    },
    {
      "epoch": 0.49660985889682974,
      "grad_norm": 0.12544922530651093,
      "learning_rate": 9.338738236459606e-06,
      "loss": 0.0008970722556114197,
      "memory(GiB)": 160.86,
      "step": 1355,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.042024
    },
    {
      "epoch": 0.4984423676012461,
      "grad_norm": 0.04251859337091446,
      "learning_rate": 9.333960613546079e-06,
      "loss": 0.0008619870990514755,
      "memory(GiB)": 160.86,
      "step": 1360,
      "token_acc": 0.9996632146164857,
      "train_speed(iter/s)": 0.042036
    },
    {
      "epoch": 0.5002748763056625,
      "grad_norm": 0.05376381427049637,
      "learning_rate": 9.329167024734951e-06,
      "loss": 0.0009831368923187255,
      "memory(GiB)": 160.86,
      "step": 1365,
      "token_acc": 0.9996631862579993,
      "train_speed(iter/s)": 0.042046
    },
    {
      "epoch": 0.5021073850100788,
      "grad_norm": 0.03389672935009003,
      "learning_rate": 9.32435748768535e-06,
      "loss": 0.001122223772108555,
      "memory(GiB)": 160.86,
      "step": 1370,
      "token_acc": 0.9995790891489182,
      "train_speed(iter/s)": 0.042057
    },
    {
      "epoch": 0.5039398937144951,
      "grad_norm": 0.07879503071308136,
      "learning_rate": 9.319532020115147e-06,
      "loss": 0.0011348828673362731,
      "memory(GiB)": 160.86,
      "step": 1375,
      "token_acc": 0.9997475172529877,
      "train_speed(iter/s)": 0.042069
    },
    {
      "epoch": 0.5057724024189115,
      "grad_norm": 0.004050049465149641,
      "learning_rate": 9.314690639800906e-06,
      "loss": 0.0002213560277596116,
      "memory(GiB)": 160.86,
      "step": 1380,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.04208
    },
    {
      "epoch": 0.5076049111233278,
      "grad_norm": 0.028278427198529243,
      "learning_rate": 9.30983336457781e-06,
      "loss": 0.0009013951756060123,
      "memory(GiB)": 160.86,
      "step": 1385,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.042093
    },
    {
      "epoch": 0.5094374198277442,
      "grad_norm": 0.020806804299354553,
      "learning_rate": 9.304960212339602e-06,
      "loss": 0.001097150705754757,
      "memory(GiB)": 160.86,
      "step": 1390,
      "token_acc": 0.9995791954216462,
      "train_speed(iter/s)": 0.042093
    },
    {
      "epoch": 0.5112699285321606,
      "grad_norm": 0.05375039204955101,
      "learning_rate": 9.300071201038503e-06,
      "loss": 0.0004816567990928888,
      "memory(GiB)": 160.86,
      "step": 1395,
      "token_acc": 0.9998316073082428,
      "train_speed(iter/s)": 0.042105
    },
    {
      "epoch": 0.5131024372365769,
      "grad_norm": 0.005027708597481251,
      "learning_rate": 9.295166348685169e-06,
      "loss": 0.0004785487428307533,
      "memory(GiB)": 160.86,
      "step": 1400,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.042115
    },
    {
      "epoch": 0.5149349459409932,
      "grad_norm": 0.007288212422281504,
      "learning_rate": 9.290245673348609e-06,
      "loss": 0.00039666993543505666,
      "memory(GiB)": 160.86,
      "step": 1405,
      "token_acc": 0.9998316781686585,
      "train_speed(iter/s)": 0.042118
    },
    {
      "epoch": 0.5167674546454095,
      "grad_norm": 0.0003485670604277402,
      "learning_rate": 9.285309193156118e-06,
      "loss": 0.0002419668948277831,
      "memory(GiB)": 160.86,
      "step": 1410,
      "token_acc": 0.9999158461667929,
      "train_speed(iter/s)": 0.042128
    },
    {
      "epoch": 0.5185999633498259,
      "grad_norm": 0.05836885794997215,
      "learning_rate": 9.280356926293222e-06,
      "loss": 0.0011019782163202763,
      "memory(GiB)": 160.86,
      "step": 1415,
      "token_acc": 0.999663356337317,
      "train_speed(iter/s)": 0.04214
    },
    {
      "epoch": 0.5204324720542423,
      "grad_norm": 0.030392736196517944,
      "learning_rate": 9.275388891003596e-06,
      "loss": 0.0003588124178349972,
      "memory(GiB)": 160.86,
      "step": 1420,
      "token_acc": 0.9998315931289997,
      "train_speed(iter/s)": 0.042152
    },
    {
      "epoch": 0.5222649807586586,
      "grad_norm": 0.10738146305084229,
      "learning_rate": 9.270405105589012e-06,
      "loss": 0.0022922657430171967,
      "memory(GiB)": 160.86,
      "step": 1425,
      "token_acc": 0.9995792308339645,
      "train_speed(iter/s)": 0.042164
    },
    {
      "epoch": 0.524097489463075,
      "grad_norm": 0.024856839329004288,
      "learning_rate": 9.265405588409258e-06,
      "loss": 0.000432960782200098,
      "memory(GiB)": 160.86,
      "step": 1430,
      "token_acc": 0.9999158390843292,
      "train_speed(iter/s)": 0.042176
    },
    {
      "epoch": 0.5259299981674913,
      "grad_norm": 0.023576080799102783,
      "learning_rate": 9.26039035788208e-06,
      "loss": 0.0014881092123687268,
      "memory(GiB)": 160.86,
      "step": 1435,
      "token_acc": 0.9995794078061911,
      "train_speed(iter/s)": 0.042185
    },
    {
      "epoch": 0.5277625068719076,
      "grad_norm": 0.025212427601218224,
      "learning_rate": 9.255359432483106e-06,
      "loss": 0.0006445163395255804,
      "memory(GiB)": 160.86,
      "step": 1440,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.042195
    },
    {
      "epoch": 0.5295950155763239,
      "grad_norm": 0.05869888886809349,
      "learning_rate": 9.25031283074579e-06,
      "loss": 0.0012847738340497016,
      "memory(GiB)": 160.86,
      "step": 1445,
      "token_acc": 0.9995791245791246,
      "train_speed(iter/s)": 0.042206
    },
    {
      "epoch": 0.5314275242807404,
      "grad_norm": 0.02733391709625721,
      "learning_rate": 9.245250571261328e-06,
      "loss": 0.0012956521473824977,
      "memory(GiB)": 160.86,
      "step": 1450,
      "token_acc": 0.9998317064961293,
      "train_speed(iter/s)": 0.042217
    },
    {
      "epoch": 0.5332600329851567,
      "grad_norm": 0.01605917513370514,
      "learning_rate": 9.240172672678603e-06,
      "loss": 0.0010051255114376545,
      "memory(GiB)": 160.86,
      "step": 1455,
      "token_acc": 0.9997476234541937,
      "train_speed(iter/s)": 0.042217
    },
    {
      "epoch": 0.535092541689573,
      "grad_norm": 0.07777733355760574,
      "learning_rate": 9.235079153704108e-06,
      "loss": 0.001209939643740654,
      "memory(GiB)": 160.86,
      "step": 1460,
      "token_acc": 0.9994948644552955,
      "train_speed(iter/s)": 0.042228
    },
    {
      "epoch": 0.5369250503939894,
      "grad_norm": 0.024418100714683533,
      "learning_rate": 9.229970033101881e-06,
      "loss": 0.0006480346899479627,
      "memory(GiB)": 160.86,
      "step": 1465,
      "token_acc": 0.9998315789473684,
      "train_speed(iter/s)": 0.042239
    },
    {
      "epoch": 0.5387575590984057,
      "grad_norm": 0.051130812615156174,
      "learning_rate": 9.224845329693434e-06,
      "loss": 0.0005965878255665303,
      "memory(GiB)": 160.86,
      "step": 1470,
      "token_acc": 0.9998316214850985,
      "train_speed(iter/s)": 0.04225
    },
    {
      "epoch": 0.540590067802822,
      "grad_norm": 0.03825452923774719,
      "learning_rate": 9.21970506235769e-06,
      "loss": 0.0003675919026136398,
      "memory(GiB)": 160.86,
      "step": 1475,
      "token_acc": 0.9998315221969506,
      "train_speed(iter/s)": 0.042259
    },
    {
      "epoch": 0.5424225765072385,
      "grad_norm": 0.05280032381415367,
      "learning_rate": 9.214549250030899e-06,
      "loss": 0.00044973762705922125,
      "memory(GiB)": 160.86,
      "step": 1480,
      "token_acc": 0.9998315931289997,
      "train_speed(iter/s)": 0.042271
    },
    {
      "epoch": 0.5442550852116548,
      "grad_norm": 0.13924196362495422,
      "learning_rate": 9.209377911706585e-06,
      "loss": 0.0010926604270935058,
      "memory(GiB)": 160.86,
      "step": 1485,
      "token_acc": 0.9996634979389248,
      "train_speed(iter/s)": 0.042282
    },
    {
      "epoch": 0.5460875939160711,
      "grad_norm": 0.0010057148756459355,
      "learning_rate": 9.204191066435463e-06,
      "loss": 7.150891469791532e-05,
      "memory(GiB)": 160.86,
      "step": 1490,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.042286
    },
    {
      "epoch": 0.5479201026204874,
      "grad_norm": 0.0028190938755869865,
      "learning_rate": 9.198988733325381e-06,
      "loss": 0.00018844833830371498,
      "memory(GiB)": 160.86,
      "step": 1495,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.042297
    },
    {
      "epoch": 0.5497526113249038,
      "grad_norm": 0.2529807388782501,
      "learning_rate": 9.19377093154123e-06,
      "loss": 0.0006476116366684436,
      "memory(GiB)": 160.86,
      "step": 1500,
      "token_acc": 0.9998315931289997,
      "train_speed(iter/s)": 0.034291
    },
    {
      "epoch": 0.5497526113249038,
      "eval_loss": 0.0008861870155669749,
      "eval_runtime": 172.4847,
      "eval_samples_per_second": 2.551,
      "eval_steps_per_second": 2.551,
      "eval_token_acc": 0.999755138270358,
      "step": 1500
    },
    {
      "epoch": 0.5515851200293201,
      "grad_norm": 0.07361137121915817,
      "learning_rate": 9.188537680304901e-06,
      "loss": 0.001575019396841526,
      "memory(GiB)": 160.86,
      "step": 1505,
      "token_acc": 0.9997150923359839,
      "train_speed(iter/s)": 0.033682
    },
    {
      "epoch": 0.5534176287337365,
      "grad_norm": 0.1123221218585968,
      "learning_rate": 9.18328899889519e-06,
      "loss": 0.0008759641088545323,
      "memory(GiB)": 160.86,
      "step": 1510,
      "token_acc": 0.9997474960020201,
      "train_speed(iter/s)": 0.033712
    },
    {
      "epoch": 0.5552501374381529,
      "grad_norm": 0.031373172998428345,
      "learning_rate": 9.17802490664774e-06,
      "loss": 0.0005370716098695993,
      "memory(GiB)": 160.86,
      "step": 1515,
      "token_acc": 0.9997475385003787,
      "train_speed(iter/s)": 0.033741
    },
    {
      "epoch": 0.5570826461425692,
      "grad_norm": 0.00548228295519948,
      "learning_rate": 9.172745422954961e-06,
      "loss": 0.0006150617729872466,
      "memory(GiB)": 160.86,
      "step": 1520,
      "token_acc": 0.9997476234541937,
      "train_speed(iter/s)": 0.033771
    },
    {
      "epoch": 0.5589151548469855,
      "grad_norm": 0.09783894568681717,
      "learning_rate": 9.167450567265972e-06,
      "loss": 0.0003677058033645153,
      "memory(GiB)": 160.86,
      "step": 1525,
      "token_acc": 0.9999158036541214,
      "train_speed(iter/s)": 0.033793
    },
    {
      "epoch": 0.5607476635514018,
      "grad_norm": 0.02310693822801113,
      "learning_rate": 9.162140359086515e-06,
      "loss": 0.0013180834241211415,
      "memory(GiB)": 160.86,
      "step": 1530,
      "token_acc": 0.9994106751978448,
      "train_speed(iter/s)": 0.033822
    },
    {
      "epoch": 0.5625801722558182,
      "grad_norm": 0.07956714183092117,
      "learning_rate": 9.156814817978889e-06,
      "loss": 0.0014457314275205136,
      "memory(GiB)": 160.86,
      "step": 1535,
      "token_acc": 0.9994950345059754,
      "train_speed(iter/s)": 0.033851
    },
    {
      "epoch": 0.5644126809602346,
      "grad_norm": 0.007547269109636545,
      "learning_rate": 9.151473963561884e-06,
      "loss": 0.0004539607558399439,
      "memory(GiB)": 160.86,
      "step": 1540,
      "token_acc": 0.9998316356595673,
      "train_speed(iter/s)": 0.033879
    },
    {
      "epoch": 0.5662451896646509,
      "grad_norm": 0.016255052760243416,
      "learning_rate": 9.146117815510691e-06,
      "loss": 0.0003765122266486287,
      "memory(GiB)": 160.86,
      "step": 1545,
      "token_acc": 0.9998315931289997,
      "train_speed(iter/s)": 0.033907
    },
    {
      "epoch": 0.5680776983690673,
      "grad_norm": 0.06404280662536621,
      "learning_rate": 9.140746393556853e-06,
      "loss": 0.0009273691102862358,
      "memory(GiB)": 160.86,
      "step": 1550,
      "token_acc": 0.9994106751978448,
      "train_speed(iter/s)": 0.033936
    },
    {
      "epoch": 0.5699102070734836,
      "grad_norm": 0.030146759003400803,
      "learning_rate": 9.135359717488179e-06,
      "loss": 0.0006903111469000577,
      "memory(GiB)": 160.86,
      "step": 1555,
      "token_acc": 0.9997473471450228,
      "train_speed(iter/s)": 0.033965
    },
    {
      "epoch": 0.5717427157778999,
      "grad_norm": 0.017701471224427223,
      "learning_rate": 9.129957807148666e-06,
      "loss": 0.0014588728547096253,
      "memory(GiB)": 160.86,
      "step": 1560,
      "token_acc": 0.999663356337317,
      "train_speed(iter/s)": 0.033993
    },
    {
      "epoch": 0.5735752244823162,
      "grad_norm": 0.02424156479537487,
      "learning_rate": 9.124540682438438e-06,
      "loss": 0.00092041976749897,
      "memory(GiB)": 160.86,
      "step": 1565,
      "token_acc": 0.9997475809844342,
      "train_speed(iter/s)": 0.034021
    },
    {
      "epoch": 0.5754077331867327,
      "grad_norm": 0.06382456421852112,
      "learning_rate": 9.119108363313665e-06,
      "loss": 0.0009634297341108323,
      "memory(GiB)": 160.86,
      "step": 1570,
      "token_acc": 0.9996634413125789,
      "train_speed(iter/s)": 0.034047
    },
    {
      "epoch": 0.577240241891149,
      "grad_norm": 0.011778367683291435,
      "learning_rate": 9.113660869786491e-06,
      "loss": 0.0007347457576543093,
      "memory(GiB)": 160.86,
      "step": 1575,
      "token_acc": 0.999663242970197,
      "train_speed(iter/s)": 0.034075
    },
    {
      "epoch": 0.5790727505955653,
      "grad_norm": 0.01488505955785513,
      "learning_rate": 9.108198221924966e-06,
      "loss": 0.0007065658923238516,
      "memory(GiB)": 160.86,
      "step": 1580,
      "token_acc": 0.9996636677036912,
      "train_speed(iter/s)": 0.034103
    },
    {
      "epoch": 0.5809052592999817,
      "grad_norm": 0.016339842230081558,
      "learning_rate": 9.102720439852964e-06,
      "loss": 0.0004196997731924057,
      "memory(GiB)": 160.86,
      "step": 1585,
      "token_acc": 0.9999158674070335,
      "train_speed(iter/s)": 0.034131
    },
    {
      "epoch": 0.582737768004398,
      "grad_norm": 0.03133771941065788,
      "learning_rate": 9.097227543750109e-06,
      "loss": 0.0003929842729121447,
      "memory(GiB)": 160.86,
      "step": 1590,
      "token_acc": 0.9999158320006734,
      "train_speed(iter/s)": 0.034104
    },
    {
      "epoch": 0.5845702767088143,
      "grad_norm": 0.10911545157432556,
      "learning_rate": 9.091719553851707e-06,
      "loss": 0.00033823368139564993,
      "memory(GiB)": 160.86,
      "step": 1595,
      "token_acc": 0.9998316781686585,
      "train_speed(iter/s)": 0.034131
    },
    {
      "epoch": 0.5864027854132308,
      "grad_norm": 0.06253647804260254,
      "learning_rate": 9.086196490448668e-06,
      "loss": 0.0004926771856844425,
      "memory(GiB)": 160.86,
      "step": 1600,
      "token_acc": 0.9998316923335858,
      "train_speed(iter/s)": 0.034154
    },
    {
      "epoch": 0.5882352941176471,
      "grad_norm": 0.01017008163034916,
      "learning_rate": 9.080658373887432e-06,
      "loss": 0.0021519148722290993,
      "memory(GiB)": 160.86,
      "step": 1605,
      "token_acc": 0.9997474747474747,
      "train_speed(iter/s)": 0.034177
    },
    {
      "epoch": 0.5900678028220634,
      "grad_norm": 0.027529926970601082,
      "learning_rate": 9.07510522456989e-06,
      "loss": 0.000728294812142849,
      "memory(GiB)": 160.86,
      "step": 1610,
      "token_acc": 0.9996633280026934,
      "train_speed(iter/s)": 0.034203
    },
    {
      "epoch": 0.5919003115264797,
      "grad_norm": 0.14524707198143005,
      "learning_rate": 9.069537062953318e-06,
      "loss": 0.0007321128156036139,
      "memory(GiB)": 160.86,
      "step": 1615,
      "token_acc": 0.9996633846671716,
      "train_speed(iter/s)": 0.03423
    },
    {
      "epoch": 0.5937328202308961,
      "grad_norm": 0.010788935236632824,
      "learning_rate": 9.063953909550289e-06,
      "loss": 0.0007929414510726929,
      "memory(GiB)": 160.86,
      "step": 1620,
      "token_acc": 0.9997475172529877,
      "train_speed(iter/s)": 0.034256
    },
    {
      "epoch": 0.5955653289353124,
      "grad_norm": 0.04031025990843773,
      "learning_rate": 9.05835578492861e-06,
      "loss": 0.00044157886877655984,
      "memory(GiB)": 160.86,
      "step": 1625,
      "token_acc": 0.9998316214850985,
      "train_speed(iter/s)": 0.034282
    },
    {
      "epoch": 0.5973978376397288,
      "grad_norm": 0.005226753186434507,
      "learning_rate": 9.052742709711234e-06,
      "loss": 0.0007471313234418631,
      "memory(GiB)": 160.86,
      "step": 1630,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.034307
    },
    {
      "epoch": 0.5992303463441452,
      "grad_norm": 0.006849437486380339,
      "learning_rate": 9.0471147045762e-06,
      "loss": 0.00016981502994894981,
      "memory(GiB)": 160.86,
      "step": 1635,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.034314
    },
    {
      "epoch": 0.6010628550485615,
      "grad_norm": 0.0021249176934361458,
      "learning_rate": 9.041471790256543e-06,
      "loss": 0.0004975998308509588,
      "memory(GiB)": 160.86,
      "step": 1640,
      "token_acc": 0.9999157965644998,
      "train_speed(iter/s)": 0.034341
    },
    {
      "epoch": 0.6028953637529778,
      "grad_norm": 0.03091166540980339,
      "learning_rate": 9.035813987540216e-06,
      "loss": 0.001137539092451334,
      "memory(GiB)": 160.86,
      "step": 1645,
      "token_acc": 0.999579018270607,
      "train_speed(iter/s)": 0.034367
    },
    {
      "epoch": 0.6047278724573941,
      "grad_norm": 0.020048417150974274,
      "learning_rate": 9.030141317270026e-06,
      "loss": 0.0009108279831707477,
      "memory(GiB)": 160.86,
      "step": 1650,
      "token_acc": 0.9997473471450228,
      "train_speed(iter/s)": 0.034393
    },
    {
      "epoch": 0.6065603811618105,
      "grad_norm": 0.0024872045032680035,
      "learning_rate": 9.02445380034355e-06,
      "loss": 0.00014628460630774497,
      "memory(GiB)": 160.86,
      "step": 1655,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.034418
    },
    {
      "epoch": 0.6083928898662269,
      "grad_norm": 0.1102481409907341,
      "learning_rate": 9.018751457713062e-06,
      "loss": 0.002010086178779602,
      "memory(GiB)": 160.86,
      "step": 1660,
      "token_acc": 0.9996634413125789,
      "train_speed(iter/s)": 0.034443
    },
    {
      "epoch": 0.6102253985706432,
      "grad_norm": 0.0067368666641414165,
      "learning_rate": 9.013034310385442e-06,
      "loss": 0.0004647184628993273,
      "memory(GiB)": 160.86,
      "step": 1665,
      "token_acc": 0.9997474322276477,
      "train_speed(iter/s)": 0.034469
    },
    {
      "epoch": 0.6120579072750596,
      "grad_norm": 0.0039915889501571655,
      "learning_rate": 9.007302379422118e-06,
      "loss": 0.0008955980651080608,
      "memory(GiB)": 160.86,
      "step": 1670,
      "token_acc": 0.999663129526697,
      "train_speed(iter/s)": 0.03449
    },
    {
      "epoch": 0.6138904159794759,
      "grad_norm": 0.04223395511507988,
      "learning_rate": 9.00155568593898e-06,
      "loss": 0.0006724436767399311,
      "memory(GiB)": 160.86,
      "step": 1675,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.034516
    },
    {
      "epoch": 0.6157229246838922,
      "grad_norm": 0.013977458700537682,
      "learning_rate": 8.995794251106295e-06,
      "loss": 0.0012857289984822273,
      "memory(GiB)": 160.86,
      "step": 1680,
      "token_acc": 0.9995791245791246,
      "train_speed(iter/s)": 0.034534
    },
    {
      "epoch": 0.6175554333883086,
      "grad_norm": 0.02960984595119953,
      "learning_rate": 8.99001809614864e-06,
      "loss": 0.0006384906824678183,
      "memory(GiB)": 160.86,
      "step": 1685,
      "token_acc": 0.9997474109623642,
      "train_speed(iter/s)": 0.034559
    },
    {
      "epoch": 0.619387942092725,
      "grad_norm": 0.14135026931762695,
      "learning_rate": 8.98422724234482e-06,
      "loss": 0.0018129302188754082,
      "memory(GiB)": 160.86,
      "step": 1690,
      "token_acc": 0.9994108735903047,
      "train_speed(iter/s)": 0.034584
    },
    {
      "epoch": 0.6212204507971413,
      "grad_norm": 0.011938896030187607,
      "learning_rate": 8.978421711027789e-06,
      "loss": 0.0010257656686007977,
      "memory(GiB)": 160.86,
      "step": 1695,
      "token_acc": 0.999579018270607,
      "train_speed(iter/s)": 0.034609
    },
    {
      "epoch": 0.6230529595015576,
      "grad_norm": 0.02054041065275669,
      "learning_rate": 8.97260152358457e-06,
      "loss": 0.0010426132939755917,
      "memory(GiB)": 160.86,
      "step": 1700,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.034627
    },
    {
      "epoch": 0.624885468205974,
      "grad_norm": 0.057805608958005905,
      "learning_rate": 8.966766701456177e-06,
      "loss": 0.0011805295012891292,
      "memory(GiB)": 160.86,
      "step": 1705,
      "token_acc": 0.9994950345059754,
      "train_speed(iter/s)": 0.03465
    },
    {
      "epoch": 0.6267179769103903,
      "grad_norm": 0.01560523733496666,
      "learning_rate": 8.96091726613754e-06,
      "loss": 0.0006526369601488113,
      "memory(GiB)": 160.86,
      "step": 1710,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.034675
    },
    {
      "epoch": 0.6285504856148066,
      "grad_norm": 0.02277560532093048,
      "learning_rate": 8.95505323917742e-06,
      "loss": 0.0003244250314310193,
      "memory(GiB)": 160.86,
      "step": 1715,
      "token_acc": 0.9999158249158249,
      "train_speed(iter/s)": 0.034697
    },
    {
      "epoch": 0.6303829943192231,
      "grad_norm": 0.03905067220330238,
      "learning_rate": 8.949174642178333e-06,
      "loss": 0.0006646113935858012,
      "memory(GiB)": 160.86,
      "step": 1720,
      "token_acc": 0.9998317064961293,
      "train_speed(iter/s)": 0.034715
    },
    {
      "epoch": 0.6322155030236394,
      "grad_norm": 0.004376774653792381,
      "learning_rate": 8.94328149679647e-06,
      "loss": 0.0006781556177884341,
      "memory(GiB)": 160.86,
      "step": 1725,
      "token_acc": 0.9996631011538786,
      "train_speed(iter/s)": 0.034739
    },
    {
      "epoch": 0.6340480117280557,
      "grad_norm": 0.08241453766822815,
      "learning_rate": 8.937373824741618e-06,
      "loss": 0.0007374928332865238,
      "memory(GiB)": 160.86,
      "step": 1730,
      "token_acc": 0.9998317206562894,
      "train_speed(iter/s)": 0.034764
    },
    {
      "epoch": 0.635880520432472,
      "grad_norm": 0.02215947024524212,
      "learning_rate": 8.931451647777076e-06,
      "loss": 0.001058538444340229,
      "memory(GiB)": 160.86,
      "step": 1735,
      "token_acc": 0.9994950770007573,
      "train_speed(iter/s)": 0.034781
    },
    {
      "epoch": 0.6377130291368884,
      "grad_norm": 0.05471364036202431,
      "learning_rate": 8.92551498771958e-06,
      "loss": 0.0005416409578174353,
      "memory(GiB)": 160.86,
      "step": 1740,
      "token_acc": 0.9998315931289997,
      "train_speed(iter/s)": 0.034805
    },
    {
      "epoch": 0.6395455378413047,
      "grad_norm": 0.0009198402985930443,
      "learning_rate": 8.919563866439218e-06,
      "loss": 0.0011710536666214467,
      "memory(GiB)": 160.86,
      "step": 1745,
      "token_acc": 0.9995790537127462,
      "train_speed(iter/s)": 0.034822
    },
    {
      "epoch": 0.6413780465457211,
      "grad_norm": 0.02374288998544216,
      "learning_rate": 8.913598305859354e-06,
      "loss": 0.0002880813553929329,
      "memory(GiB)": 160.86,
      "step": 1750,
      "token_acc": 0.9999158249158249,
      "train_speed(iter/s)": 0.034839
    },
    {
      "epoch": 0.6432105552501375,
      "grad_norm": 0.03671794757246971,
      "learning_rate": 8.907618327956546e-06,
      "loss": 0.0009451866149902344,
      "memory(GiB)": 160.86,
      "step": 1755,
      "token_acc": 0.9997473896934995,
      "train_speed(iter/s)": 0.034863
    },
    {
      "epoch": 0.6450430639545538,
      "grad_norm": 0.02204386703670025,
      "learning_rate": 8.90162395476046e-06,
      "loss": 0.00012790242908522487,
      "memory(GiB)": 160.86,
      "step": 1760,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.034887
    },
    {
      "epoch": 0.6468755726589701,
      "grad_norm": 0.006437621079385281,
      "learning_rate": 8.895615208353796e-06,
      "loss": 0.0011966807767748832,
      "memory(GiB)": 160.86,
      "step": 1765,
      "token_acc": 0.9996632146164857,
      "train_speed(iter/s)": 0.034911
    },
    {
      "epoch": 0.6487080813633864,
      "grad_norm": 0.06638949364423752,
      "learning_rate": 8.889592110872203e-06,
      "loss": 0.0013600192032754421,
      "memory(GiB)": 160.86,
      "step": 1770,
      "token_acc": 0.9997474747474747,
      "train_speed(iter/s)": 0.034934
    },
    {
      "epoch": 0.6505405900678028,
      "grad_norm": 0.029982449486851692,
      "learning_rate": 8.883554684504198e-06,
      "loss": 0.00047690006904304026,
      "memory(GiB)": 160.86,
      "step": 1775,
      "token_acc": 0.9999158249158249,
      "train_speed(iter/s)": 0.034958
    },
    {
      "epoch": 0.6523730987722192,
      "grad_norm": 0.0004446969833225012,
      "learning_rate": 8.877502951491083e-06,
      "loss": 0.0002472808351740241,
      "memory(GiB)": 160.86,
      "step": 1780,
      "token_acc": 0.9999158674070335,
      "train_speed(iter/s)": 0.034982
    },
    {
      "epoch": 0.6542056074766355,
      "grad_norm": 0.045220986008644104,
      "learning_rate": 8.871436934126865e-06,
      "loss": 0.00016599131049588323,
      "memory(GiB)": 160.86,
      "step": 1785,
      "token_acc": 0.9999158107425492,
      "train_speed(iter/s)": 0.035005
    },
    {
      "epoch": 0.6560381161810519,
      "grad_norm": 0.08464392274618149,
      "learning_rate": 8.865356654758175e-06,
      "loss": 0.0011138648726046086,
      "memory(GiB)": 160.86,
      "step": 1790,
      "token_acc": 0.9997474534893509,
      "train_speed(iter/s)": 0.035029
    },
    {
      "epoch": 0.6578706248854682,
      "grad_norm": 0.018666911870241165,
      "learning_rate": 8.859262135784184e-06,
      "loss": 0.0008051570504903794,
      "memory(GiB)": 160.86,
      "step": 1795,
      "token_acc": 0.9998317206562894,
      "train_speed(iter/s)": 0.035052
    },
    {
      "epoch": 0.6597031335898845,
      "grad_norm": 0.03633316978812218,
      "learning_rate": 8.853153399656513e-06,
      "loss": 0.0012314721010625363,
      "memory(GiB)": 160.86,
      "step": 1800,
      "token_acc": 0.9997476022211005,
      "train_speed(iter/s)": 0.035075
    },
    {
      "epoch": 0.661535642294301,
      "grad_norm": 0.07466746866703033,
      "learning_rate": 8.84703046887917e-06,
      "loss": 0.0005056848283857107,
      "memory(GiB)": 160.86,
      "step": 1805,
      "token_acc": 0.9998315789473684,
      "train_speed(iter/s)": 0.035098
    },
    {
      "epoch": 0.6633681509987173,
      "grad_norm": 0.058270856738090515,
      "learning_rate": 8.840893366008443e-06,
      "loss": 0.0027731884270906447,
      "memory(GiB)": 160.86,
      "step": 1810,
      "token_acc": 0.9989051709617652,
      "train_speed(iter/s)": 0.03512
    },
    {
      "epoch": 0.6652006597031336,
      "grad_norm": 0.053415171802043915,
      "learning_rate": 8.834742113652835e-06,
      "loss": 0.0012996003031730651,
      "memory(GiB)": 160.86,
      "step": 1815,
      "token_acc": 0.9996633846671716,
      "train_speed(iter/s)": 0.035143
    },
    {
      "epoch": 0.6670331684075499,
      "grad_norm": 0.17921970784664154,
      "learning_rate": 8.828576734472975e-06,
      "loss": 0.002054636925458908,
      "memory(GiB)": 160.86,
      "step": 1820,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.035166
    },
    {
      "epoch": 0.6688656771119663,
      "grad_norm": 0.2059200257062912,
      "learning_rate": 8.82239725118153e-06,
      "loss": 0.000544156739488244,
      "memory(GiB)": 160.86,
      "step": 1825,
      "token_acc": 0.9998317914213625,
      "train_speed(iter/s)": 0.035188
    },
    {
      "epoch": 0.6706981858163826,
      "grad_norm": 0.0659668818116188,
      "learning_rate": 8.816203686543128e-06,
      "loss": 0.0011439280584454536,
      "memory(GiB)": 160.86,
      "step": 1830,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.03521
    },
    {
      "epoch": 0.6725306945207989,
      "grad_norm": 0.027126120403409004,
      "learning_rate": 8.80999606337427e-06,
      "loss": 0.0006697001401335001,
      "memory(GiB)": 160.86,
      "step": 1835,
      "token_acc": 0.9997474747474747,
      "train_speed(iter/s)": 0.035233
    },
    {
      "epoch": 0.6743632032252154,
      "grad_norm": 0.04717881977558136,
      "learning_rate": 8.803774404543246e-06,
      "loss": 0.0008460984565317631,
      "memory(GiB)": 160.86,
      "step": 1840,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.035255
    },
    {
      "epoch": 0.6761957119296317,
      "grad_norm": 0.03212764859199524,
      "learning_rate": 8.79753873297006e-06,
      "loss": 0.0013919253833591938,
      "memory(GiB)": 160.86,
      "step": 1845,
      "token_acc": 0.9995793370351674,
      "train_speed(iter/s)": 0.035277
    },
    {
      "epoch": 0.678028220634048,
      "grad_norm": 0.004734094720333815,
      "learning_rate": 8.791289071626324e-06,
      "loss": 0.0017154796048998832,
      "memory(GiB)": 160.86,
      "step": 1850,
      "token_acc": 0.9994106751978448,
      "train_speed(iter/s)": 0.035298
    },
    {
      "epoch": 0.6798607293384643,
      "grad_norm": 0.002792911371216178,
      "learning_rate": 8.7850254435352e-06,
      "loss": 0.00024983214680105446,
      "memory(GiB)": 160.86,
      "step": 1855,
      "token_acc": 0.9999158532480646,
      "train_speed(iter/s)": 0.035304
    },
    {
      "epoch": 0.6816932380428807,
      "grad_norm": 0.069346122443676,
      "learning_rate": 8.778747871771293e-06,
      "loss": 0.0004865613766014576,
      "memory(GiB)": 160.86,
      "step": 1860,
      "token_acc": 0.9999158603281447,
      "train_speed(iter/s)": 0.035326
    },
    {
      "epoch": 0.683525746747297,
      "grad_norm": 0.0010090708965435624,
      "learning_rate": 8.772456379460578e-06,
      "loss": 0.0005619535222649574,
      "memory(GiB)": 160.86,
      "step": 1865,
      "token_acc": 0.9998316923335858,
      "train_speed(iter/s)": 0.035348
    },
    {
      "epoch": 0.6853582554517134,
      "grad_norm": 0.00402231328189373,
      "learning_rate": 8.766150989780317e-06,
      "loss": 0.00032461092341691257,
      "memory(GiB)": 160.86,
      "step": 1870,
      "token_acc": 0.9999158178297837,
      "train_speed(iter/s)": 0.03537
    },
    {
      "epoch": 0.6871907641561298,
      "grad_norm": 0.016630422323942184,
      "learning_rate": 8.759831725958963e-06,
      "loss": 0.0007076055742800235,
      "memory(GiB)": 160.86,
      "step": 1875,
      "token_acc": 0.9999158461667929,
      "train_speed(iter/s)": 0.035386
    },
    {
      "epoch": 0.6890232728605461,
      "grad_norm": 0.13864953815937042,
      "learning_rate": 8.75349861127608e-06,
      "loss": 0.0009592998772859574,
      "memory(GiB)": 160.86,
      "step": 1880,
      "token_acc": 0.999663356337317,
      "train_speed(iter/s)": 0.035408
    },
    {
      "epoch": 0.6908557815649624,
      "grad_norm": 0.12857644259929657,
      "learning_rate": 8.747151669062256e-06,
      "loss": 0.0003430765587836504,
      "memory(GiB)": 160.86,
      "step": 1885,
      "token_acc": 0.9998316781686585,
      "train_speed(iter/s)": 0.035429
    },
    {
      "epoch": 0.6926882902693787,
      "grad_norm": 0.007042865734547377,
      "learning_rate": 8.740790922699024e-06,
      "loss": 0.0002988249296322465,
      "memory(GiB)": 160.86,
      "step": 1890,
      "token_acc": 0.9999157823816742,
      "train_speed(iter/s)": 0.035451
    },
    {
      "epoch": 0.6945207989737952,
      "grad_norm": 0.004211138002574444,
      "learning_rate": 8.73441639561877e-06,
      "loss": 0.000298920925706625,
      "memory(GiB)": 160.86,
      "step": 1895,
      "token_acc": 0.9998316781686585,
      "train_speed(iter/s)": 0.035464
    },
    {
      "epoch": 0.6963533076782115,
      "grad_norm": 0.10895411670207977,
      "learning_rate": 8.728028111304639e-06,
      "loss": 0.0018308842554688454,
      "memory(GiB)": 160.86,
      "step": 1900,
      "token_acc": 0.9995788054923764,
      "train_speed(iter/s)": 0.035485
    },
    {
      "epoch": 0.6981858163826278,
      "grad_norm": 0.05376400053501129,
      "learning_rate": 8.721626093290461e-06,
      "loss": 0.0004374215379357338,
      "memory(GiB)": 160.86,
      "step": 1905,
      "token_acc": 0.9998316923335858,
      "train_speed(iter/s)": 0.035506
    },
    {
      "epoch": 0.7000183250870442,
      "grad_norm": 0.007238362450152636,
      "learning_rate": 8.715210365160662e-06,
      "loss": 6.630108109675347e-05,
      "memory(GiB)": 160.86,
      "step": 1910,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.035527
    },
    {
      "epoch": 0.7018508337914605,
      "grad_norm": 0.00040705734863877296,
      "learning_rate": 8.708780950550173e-06,
      "loss": 0.0006973243784159422,
      "memory(GiB)": 160.86,
      "step": 1915,
      "token_acc": 0.9997475172529877,
      "train_speed(iter/s)": 0.035548
    },
    {
      "epoch": 0.7036833424958768,
      "grad_norm": 0.0899810642004013,
      "learning_rate": 8.702337873144343e-06,
      "loss": 0.0013748856261372566,
      "memory(GiB)": 160.86,
      "step": 1920,
      "token_acc": 0.9994948219247285,
      "train_speed(iter/s)": 0.035569
    },
    {
      "epoch": 0.7055158512002933,
      "grad_norm": 0.08953223377466202,
      "learning_rate": 8.695881156678856e-06,
      "loss": 0.0006622021552175284,
      "memory(GiB)": 160.86,
      "step": 1925,
      "token_acc": 0.9997475597441938,
      "train_speed(iter/s)": 0.035589
    },
    {
      "epoch": 0.7073483599047096,
      "grad_norm": 0.015041066333651543,
      "learning_rate": 8.689410824939639e-06,
      "loss": 0.0003675042651593685,
      "memory(GiB)": 160.86,
      "step": 1930,
      "token_acc": 0.9999158249158249,
      "train_speed(iter/s)": 0.03561
    },
    {
      "epoch": 0.7091808686091259,
      "grad_norm": 0.015323134139180183,
      "learning_rate": 8.682926901762776e-06,
      "loss": 0.0009645667858421802,
      "memory(GiB)": 160.86,
      "step": 1935,
      "token_acc": 0.999663242970197,
      "train_speed(iter/s)": 0.03563
    },
    {
      "epoch": 0.7110133773135422,
      "grad_norm": 0.05264544486999512,
      "learning_rate": 8.676429411034423e-06,
      "loss": 0.0006276907399296761,
      "memory(GiB)": 160.86,
      "step": 1940,
      "token_acc": 0.9996633280026934,
      "train_speed(iter/s)": 0.035648
    },
    {
      "epoch": 0.7128458860179586,
      "grad_norm": 0.0028159820940345526,
      "learning_rate": 8.669918376690716e-06,
      "loss": 0.00036051685456186535,
      "memory(GiB)": 160.86,
      "step": 1945,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.035668
    },
    {
      "epoch": 0.7146783947223749,
      "grad_norm": 0.0341511145234108,
      "learning_rate": 8.663393822717686e-06,
      "loss": 0.0003709573531523347,
      "memory(GiB)": 160.86,
      "step": 1950,
      "token_acc": 0.9998317064961293,
      "train_speed(iter/s)": 0.035688
    },
    {
      "epoch": 0.7165109034267912,
      "grad_norm": 0.0006480200099758804,
      "learning_rate": 8.656855773151163e-06,
      "loss": 0.0003987106028944254,
      "memory(GiB)": 160.86,
      "step": 1955,
      "token_acc": 0.9998315789473684,
      "train_speed(iter/s)": 0.035709
    },
    {
      "epoch": 0.7183434121312077,
      "grad_norm": 0.0002706103550735861,
      "learning_rate": 8.650304252076704e-06,
      "loss": 0.0003762753214687109,
      "memory(GiB)": 160.86,
      "step": 1960,
      "token_acc": 0.9998316356595673,
      "train_speed(iter/s)": 0.035729
    },
    {
      "epoch": 0.720175920835624,
      "grad_norm": 0.00926526915282011,
      "learning_rate": 8.643739283629484e-06,
      "loss": 0.00021247351542115213,
      "memory(GiB)": 160.86,
      "step": 1965,
      "token_acc": 0.9999158603281447,
      "train_speed(iter/s)": 0.035749
    },
    {
      "epoch": 0.7220084295400403,
      "grad_norm": 0.11203871667385101,
      "learning_rate": 8.63716089199422e-06,
      "loss": 0.0012671677395701408,
      "memory(GiB)": 160.86,
      "step": 1970,
      "token_acc": 0.9995792662403231,
      "train_speed(iter/s)": 0.03577
    },
    {
      "epoch": 0.7238409382444566,
      "grad_norm": 0.027508899569511414,
      "learning_rate": 8.630569101405084e-06,
      "loss": 0.0016218043863773346,
      "memory(GiB)": 160.86,
      "step": 1975,
      "token_acc": 0.99949499200404,
      "train_speed(iter/s)": 0.03579
    },
    {
      "epoch": 0.725673446948873,
      "grad_norm": 0.03338692709803581,
      "learning_rate": 8.6239639361456e-06,
      "loss": 0.0007595627568662167,
      "memory(GiB)": 160.86,
      "step": 1980,
      "token_acc": 0.9997473045822103,
      "train_speed(iter/s)": 0.03581
    },
    {
      "epoch": 0.7275059556532893,
      "grad_norm": 0.01979021355509758,
      "learning_rate": 8.617345420548568e-06,
      "loss": 0.00039132642559707164,
      "memory(GiB)": 160.86,
      "step": 1985,
      "token_acc": 0.9998317631224765,
      "train_speed(iter/s)": 0.035829
    },
    {
      "epoch": 0.7293384643577057,
      "grad_norm": 0.0021872930228710175,
      "learning_rate": 8.610713578995969e-06,
      "loss": 0.0002923472551628947,
      "memory(GiB)": 160.86,
      "step": 1990,
      "token_acc": 0.9999158603281447,
      "train_speed(iter/s)": 0.035848
    },
    {
      "epoch": 0.7311709730621221,
      "grad_norm": 0.007450213190168142,
      "learning_rate": 8.604068435918876e-06,
      "loss": 0.0004648041445761919,
      "memory(GiB)": 160.86,
      "step": 1995,
      "token_acc": 0.9998316356595673,
      "train_speed(iter/s)": 0.035868
    },
    {
      "epoch": 0.7330034817665384,
      "grad_norm": 0.018950950354337692,
      "learning_rate": 8.597410015797358e-06,
      "loss": 0.0011166405864059925,
      "memory(GiB)": 160.86,
      "step": 2000,
      "token_acc": 0.9996636394214599,
      "train_speed(iter/s)": 0.035879
    },
    {
      "epoch": 0.7330034817665384,
      "eval_loss": 0.0007337583811022341,
      "eval_runtime": 199.2224,
      "eval_samples_per_second": 2.209,
      "eval_steps_per_second": 2.209,
      "eval_token_acc": 0.9997704421284606,
      "step": 2000
    },
    {
      "epoch": 0.7348359904709547,
      "grad_norm": 0.0039305477403104305,
      "learning_rate": 8.590738343160402e-06,
      "loss": 0.00037078014574944975,
      "memory(GiB)": 160.86,
      "step": 2005,
      "token_acc": 0.9997927917427509,
      "train_speed(iter/s)": 0.035487
    },
    {
      "epoch": 0.736668499175371,
      "grad_norm": 0.013306787237524986,
      "learning_rate": 8.584053442585816e-06,
      "loss": 0.0020991813391447066,
      "memory(GiB)": 160.86,
      "step": 2010,
      "token_acc": 0.9996633846671716,
      "train_speed(iter/s)": 0.035507
    },
    {
      "epoch": 0.7385010078797875,
      "grad_norm": 0.006368038710206747,
      "learning_rate": 8.577355338700133e-06,
      "loss": 0.000787766557186842,
      "memory(GiB)": 160.86,
      "step": 2015,
      "token_acc": 0.9997473896934995,
      "train_speed(iter/s)": 0.035525
    },
    {
      "epoch": 0.7403335165842038,
      "grad_norm": 0.010385467670857906,
      "learning_rate": 8.570644056178533e-06,
      "loss": 0.0008328554220497608,
      "memory(GiB)": 160.86,
      "step": 2020,
      "token_acc": 0.9997476871320438,
      "train_speed(iter/s)": 0.035538
    },
    {
      "epoch": 0.7421660252886201,
      "grad_norm": 0.01632188819348812,
      "learning_rate": 8.563919619744735e-06,
      "loss": 0.0005637739785015583,
      "memory(GiB)": 160.86,
      "step": 2025,
      "token_acc": 0.9998315931289997,
      "train_speed(iter/s)": 0.035559
    },
    {
      "epoch": 0.7439985339930365,
      "grad_norm": 0.011626377701759338,
      "learning_rate": 8.557182054170926e-06,
      "loss": 0.0005918642971664667,
      "memory(GiB)": 160.86,
      "step": 2030,
      "token_acc": 0.9999158178297837,
      "train_speed(iter/s)": 0.035578
    },
    {
      "epoch": 0.7458310426974528,
      "grad_norm": 0.0031517872121185064,
      "learning_rate": 8.550431384277654e-06,
      "loss": 0.00141130480915308,
      "memory(GiB)": 160.86,
      "step": 2035,
      "token_acc": 0.9995790891489182,
      "train_speed(iter/s)": 0.035597
    },
    {
      "epoch": 0.7476635514018691,
      "grad_norm": 0.05396876111626625,
      "learning_rate": 8.543667634933743e-06,
      "loss": 0.0004124412313103676,
      "memory(GiB)": 160.86,
      "step": 2040,
      "token_acc": 0.9998316214850985,
      "train_speed(iter/s)": 0.035616
    },
    {
      "epoch": 0.7494960601062856,
      "grad_norm": 0.0036719287745654583,
      "learning_rate": 8.536890831056199e-06,
      "loss": 0.0014296333305537702,
      "memory(GiB)": 160.86,
      "step": 2045,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.035636
    },
    {
      "epoch": 0.7513285688107019,
      "grad_norm": 0.01854000613093376,
      "learning_rate": 8.530100997610125e-06,
      "loss": 0.00037872311659157274,
      "memory(GiB)": 160.86,
      "step": 2050,
      "token_acc": 0.9999158886365548,
      "train_speed(iter/s)": 0.035656
    },
    {
      "epoch": 0.7531610775151182,
      "grad_norm": 0.022685358300805092,
      "learning_rate": 8.523298159608615e-06,
      "loss": 0.0005078110843896866,
      "memory(GiB)": 160.86,
      "step": 2055,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.035675
    },
    {
      "epoch": 0.7549935862195345,
      "grad_norm": 0.0069847991690039635,
      "learning_rate": 8.51648234211268e-06,
      "loss": 0.0006114406045526266,
      "memory(GiB)": 160.86,
      "step": 2060,
      "token_acc": 0.9999158036541214,
      "train_speed(iter/s)": 0.035694
    },
    {
      "epoch": 0.7568260949239509,
      "grad_norm": 0.005377015098929405,
      "learning_rate": 8.509653570231139e-06,
      "loss": 0.000488346815109253,
      "memory(GiB)": 160.86,
      "step": 2065,
      "token_acc": 0.9998316356595673,
      "train_speed(iter/s)": 0.035714
    },
    {
      "epoch": 0.7586586036283672,
      "grad_norm": 0.13766171038150787,
      "learning_rate": 8.502811869120537e-06,
      "loss": 0.0007873100228607654,
      "memory(GiB)": 160.86,
      "step": 2070,
      "token_acc": 0.9997473471450228,
      "train_speed(iter/s)": 0.035733
    },
    {
      "epoch": 0.7604911123327835,
      "grad_norm": 0.08824609220027924,
      "learning_rate": 8.495957263985049e-06,
      "loss": 0.0008373255841434002,
      "memory(GiB)": 160.86,
      "step": 2075,
      "token_acc": 0.9995790537127462,
      "train_speed(iter/s)": 0.035751
    },
    {
      "epoch": 0.7623236210372,
      "grad_norm": 0.006550587713718414,
      "learning_rate": 8.489089780076387e-06,
      "loss": 0.00012923479080200194,
      "memory(GiB)": 160.86,
      "step": 2080,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.03577
    },
    {
      "epoch": 0.7641561297416163,
      "grad_norm": 0.06086429953575134,
      "learning_rate": 8.482209442693706e-06,
      "loss": 0.002163195610046387,
      "memory(GiB)": 160.86,
      "step": 2085,
      "token_acc": 0.9990743078347218,
      "train_speed(iter/s)": 0.03579
    },
    {
      "epoch": 0.7659886384460326,
      "grad_norm": 0.045746754854917526,
      "learning_rate": 8.47531627718351e-06,
      "loss": 0.00045907222665846347,
      "memory(GiB)": 160.86,
      "step": 2090,
      "token_acc": 0.9998315080033698,
      "train_speed(iter/s)": 0.035808
    },
    {
      "epoch": 0.7678211471504489,
      "grad_norm": 0.01716403290629387,
      "learning_rate": 8.46841030893957e-06,
      "loss": 0.0005397152155637742,
      "memory(GiB)": 160.86,
      "step": 2095,
      "token_acc": 0.9997475597441938,
      "train_speed(iter/s)": 0.035827
    },
    {
      "epoch": 0.7696536558548653,
      "grad_norm": 0.0022040277253836393,
      "learning_rate": 8.461491563402807e-06,
      "loss": 0.0012433138675987721,
      "memory(GiB)": 160.86,
      "step": 2100,
      "token_acc": 0.9997475385003787,
      "train_speed(iter/s)": 0.035846
    },
    {
      "epoch": 0.7714861645592817,
      "grad_norm": 0.028352022171020508,
      "learning_rate": 8.454560066061225e-06,
      "loss": 0.0011054543778300286,
      "memory(GiB)": 160.86,
      "step": 2105,
      "token_acc": 0.9995790891489182,
      "train_speed(iter/s)": 0.035865
    },
    {
      "epoch": 0.773318673263698,
      "grad_norm": 0.017512010410428047,
      "learning_rate": 8.447615842449799e-06,
      "loss": 0.00045901937410235404,
      "memory(GiB)": 160.86,
      "step": 2110,
      "token_acc": 0.9999158249158249,
      "train_speed(iter/s)": 0.035883
    },
    {
      "epoch": 0.7751511819681144,
      "grad_norm": 0.014501676894724369,
      "learning_rate": 8.440658918150383e-06,
      "loss": 0.0004790318664163351,
      "memory(GiB)": 160.86,
      "step": 2115,
      "token_acc": 0.9997476446837147,
      "train_speed(iter/s)": 0.035901
    },
    {
      "epoch": 0.7769836906725307,
      "grad_norm": 0.06630018353462219,
      "learning_rate": 8.433689318791628e-06,
      "loss": 0.0008208448067307472,
      "memory(GiB)": 160.86,
      "step": 2120,
      "token_acc": 0.999663356337317,
      "train_speed(iter/s)": 0.03592
    },
    {
      "epoch": 0.778816199376947,
      "grad_norm": 0.029544832184910774,
      "learning_rate": 8.426707070048867e-06,
      "loss": 0.00034202171955257656,
      "memory(GiB)": 160.86,
      "step": 2125,
      "token_acc": 0.9999158036541214,
      "train_speed(iter/s)": 0.035938
    },
    {
      "epoch": 0.7806487080813634,
      "grad_norm": 0.020295366644859314,
      "learning_rate": 8.419712197644042e-06,
      "loss": 0.00047438177280128,
      "memory(GiB)": 160.86,
      "step": 2130,
      "token_acc": 0.9998316356595673,
      "train_speed(iter/s)": 0.035956
    },
    {
      "epoch": 0.7824812167857798,
      "grad_norm": 0.021269747987389565,
      "learning_rate": 8.412704727345597e-06,
      "loss": 0.0006256222724914551,
      "memory(GiB)": 160.86,
      "step": 2135,
      "token_acc": 0.9999158390843292,
      "train_speed(iter/s)": 0.035974
    },
    {
      "epoch": 0.7843137254901961,
      "grad_norm": 0.035125475376844406,
      "learning_rate": 8.405684684968383e-06,
      "loss": 0.0005730021744966507,
      "memory(GiB)": 160.86,
      "step": 2140,
      "token_acc": 0.9998315647633484,
      "train_speed(iter/s)": 0.035992
    },
    {
      "epoch": 0.7861462341946124,
      "grad_norm": 0.06994622200727463,
      "learning_rate": 8.398652096373566e-06,
      "loss": 0.0003744778921827674,
      "memory(GiB)": 160.86,
      "step": 2145,
      "token_acc": 0.9999157894736842,
      "train_speed(iter/s)": 0.03601
    },
    {
      "epoch": 0.7879787428990288,
      "grad_norm": 0.006813399959355593,
      "learning_rate": 8.39160698746853e-06,
      "loss": 0.0007882724516093731,
      "memory(GiB)": 160.86,
      "step": 2150,
      "token_acc": 0.9997474747474747,
      "train_speed(iter/s)": 0.036027
    },
    {
      "epoch": 0.7898112516034451,
      "grad_norm": 0.20248223841190338,
      "learning_rate": 8.38454938420679e-06,
      "loss": 0.00029504401609301565,
      "memory(GiB)": 160.86,
      "step": 2155,
      "token_acc": 0.9999157823816742,
      "train_speed(iter/s)": 0.036045
    },
    {
      "epoch": 0.7916437603078614,
      "grad_norm": 0.10259495675563812,
      "learning_rate": 8.37747931258788e-06,
      "loss": 0.0013766267336905002,
      "memory(GiB)": 160.86,
      "step": 2160,
      "token_acc": 0.9995792662403231,
      "train_speed(iter/s)": 0.036063
    },
    {
      "epoch": 0.7934762690122779,
      "grad_norm": 0.022682547569274902,
      "learning_rate": 8.370396798657269e-06,
      "loss": 0.0003458364633843303,
      "memory(GiB)": 160.86,
      "step": 2165,
      "token_acc": 0.9999158532480646,
      "train_speed(iter/s)": 0.036081
    },
    {
      "epoch": 0.7953087777166942,
      "grad_norm": 0.05654159560799599,
      "learning_rate": 8.363301868506264e-06,
      "loss": 0.0008417519740760327,
      "memory(GiB)": 160.86,
      "step": 2170,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.036099
    },
    {
      "epoch": 0.7971412864211105,
      "grad_norm": 0.010379817336797714,
      "learning_rate": 8.35619454827191e-06,
      "loss": 0.00014047393342480062,
      "memory(GiB)": 160.86,
      "step": 2175,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.036117
    },
    {
      "epoch": 0.7989737951255268,
      "grad_norm": 0.002908756723627448,
      "learning_rate": 8.349074864136897e-06,
      "loss": 0.0010122337378561496,
      "memory(GiB)": 160.86,
      "step": 2180,
      "token_acc": 0.9995790891489182,
      "train_speed(iter/s)": 0.036134
    },
    {
      "epoch": 0.8008063038299432,
      "grad_norm": 0.015968699008226395,
      "learning_rate": 8.341942842329465e-06,
      "loss": 0.0010151905938982964,
      "memory(GiB)": 160.86,
      "step": 2185,
      "token_acc": 0.9997474747474747,
      "train_speed(iter/s)": 0.036152
    },
    {
      "epoch": 0.8026388125343595,
      "grad_norm": 0.02950908988714218,
      "learning_rate": 8.3347985091233e-06,
      "loss": 0.0006167484447360039,
      "memory(GiB)": 160.86,
      "step": 2190,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.036169
    },
    {
      "epoch": 0.8044713212387758,
      "grad_norm": 0.004527771379798651,
      "learning_rate": 8.327641890837443e-06,
      "loss": 0.0001240343088284135,
      "memory(GiB)": 160.86,
      "step": 2195,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.036187
    },
    {
      "epoch": 0.8063038299431923,
      "grad_norm": 0.09493066370487213,
      "learning_rate": 8.320473013836197e-06,
      "loss": 0.0003447512863203883,
      "memory(GiB)": 160.86,
      "step": 2200,
      "token_acc": 0.9999158603281447,
      "train_speed(iter/s)": 0.036205
    },
    {
      "epoch": 0.8081363386476086,
      "grad_norm": 0.016084903851151466,
      "learning_rate": 8.313291904529018e-06,
      "loss": 0.0009649941697716713,
      "memory(GiB)": 160.86,
      "step": 2205,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.036222
    },
    {
      "epoch": 0.8099688473520249,
      "grad_norm": 0.05419844388961792,
      "learning_rate": 8.306098589370427e-06,
      "loss": 0.0005068023223429918,
      "memory(GiB)": 160.86,
      "step": 2210,
      "token_acc": 0.9998317206562894,
      "train_speed(iter/s)": 0.036239
    },
    {
      "epoch": 0.8118013560564412,
      "grad_norm": 0.12476948648691177,
      "learning_rate": 8.298893094859916e-06,
      "loss": 0.0009864597581326962,
      "memory(GiB)": 160.86,
      "step": 2215,
      "token_acc": 0.9998315931289997,
      "train_speed(iter/s)": 0.036257
    },
    {
      "epoch": 0.8136338647608576,
      "grad_norm": 0.06563253700733185,
      "learning_rate": 8.291675447541834e-06,
      "loss": 0.000346578611060977,
      "memory(GiB)": 160.86,
      "step": 2220,
      "token_acc": 0.999831734814067,
      "train_speed(iter/s)": 0.036274
    },
    {
      "epoch": 0.815466373465274,
      "grad_norm": 0.0007064275559969246,
      "learning_rate": 8.28444567400531e-06,
      "loss": 0.0002860090462490916,
      "memory(GiB)": 160.86,
      "step": 2225,
      "token_acc": 0.9998316073082428,
      "train_speed(iter/s)": 0.03629
    },
    {
      "epoch": 0.8172988821696903,
      "grad_norm": 0.06441126018762589,
      "learning_rate": 8.277203800884137e-06,
      "loss": 0.0004928476177155971,
      "memory(GiB)": 160.86,
      "step": 2230,
      "token_acc": 0.9999158036541214,
      "train_speed(iter/s)": 0.036307
    },
    {
      "epoch": 0.8191313908741067,
      "grad_norm": 0.07549826800823212,
      "learning_rate": 8.269949854856687e-06,
      "loss": 0.0014977409504354,
      "memory(GiB)": 160.86,
      "step": 2235,
      "token_acc": 0.9997476022211005,
      "train_speed(iter/s)": 0.036324
    },
    {
      "epoch": 0.820963899578523,
      "grad_norm": 0.02339329943060875,
      "learning_rate": 8.262683862645804e-06,
      "loss": 0.00037619960494339466,
      "memory(GiB)": 160.86,
      "step": 2240,
      "token_acc": 0.9998315221969506,
      "train_speed(iter/s)": 0.036341
    },
    {
      "epoch": 0.8227964082829393,
      "grad_norm": 0.013340925797820091,
      "learning_rate": 8.255405851018713e-06,
      "loss": 0.0004039745777845383,
      "memory(GiB)": 160.86,
      "step": 2245,
      "token_acc": 0.9999158249158249,
      "train_speed(iter/s)": 0.036358
    },
    {
      "epoch": 0.8246289169873557,
      "grad_norm": 0.1738908737897873,
      "learning_rate": 8.24811584678691e-06,
      "loss": 0.0009243869222700596,
      "memory(GiB)": 160.86,
      "step": 2250,
      "token_acc": 0.999663356337317,
      "train_speed(iter/s)": 0.036375
    },
    {
      "epoch": 0.8264614256917721,
      "grad_norm": 0.1292845755815506,
      "learning_rate": 8.24081387680608e-06,
      "loss": 0.0004229114390909672,
      "memory(GiB)": 160.86,
      "step": 2255,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.036392
    },
    {
      "epoch": 0.8282939343961884,
      "grad_norm": 0.03298277407884598,
      "learning_rate": 8.233499967975981e-06,
      "loss": 0.0003614515298977494,
      "memory(GiB)": 160.86,
      "step": 2260,
      "token_acc": 0.9999158674070335,
      "train_speed(iter/s)": 0.036406
    },
    {
      "epoch": 0.8301264431006047,
      "grad_norm": 0.0037736741360276937,
      "learning_rate": 8.226174147240359e-06,
      "loss": 0.0006478279829025269,
      "memory(GiB)": 160.86,
      "step": 2265,
      "token_acc": 0.9998315363881402,
      "train_speed(iter/s)": 0.036422
    },
    {
      "epoch": 0.8319589518050211,
      "grad_norm": 0.010557832196354866,
      "learning_rate": 8.218836441586834e-06,
      "loss": 0.0005696366541087627,
      "memory(GiB)": 160.86,
      "step": 2270,
      "token_acc": 0.9998317064961293,
      "train_speed(iter/s)": 0.036439
    },
    {
      "epoch": 0.8337914605094374,
      "grad_norm": 0.003406501142308116,
      "learning_rate": 8.211486878046819e-06,
      "loss": 0.0006424786522984504,
      "memory(GiB)": 160.86,
      "step": 2275,
      "token_acc": 0.9998316498316498,
      "train_speed(iter/s)": 0.036454
    },
    {
      "epoch": 0.8356239692138537,
      "grad_norm": 0.0992351546883583,
      "learning_rate": 8.204125483695403e-06,
      "loss": 0.0005788296461105346,
      "memory(GiB)": 160.86,
      "step": 2280,
      "token_acc": 0.9998317206562894,
      "train_speed(iter/s)": 0.036471
    },
    {
      "epoch": 0.8374564779182702,
      "grad_norm": 0.010372207500040531,
      "learning_rate": 8.196752285651261e-06,
      "loss": 0.00029938730876892804,
      "memory(GiB)": 160.86,
      "step": 2285,
      "token_acc": 0.9999157469036987,
      "train_speed(iter/s)": 0.036487
    },
    {
      "epoch": 0.8392889866226865,
      "grad_norm": 0.0683954581618309,
      "learning_rate": 8.189367311076551e-06,
      "loss": 0.0007511110045015812,
      "memory(GiB)": 160.86,
      "step": 2290,
      "token_acc": 0.9998317489694625,
      "train_speed(iter/s)": 0.036504
    },
    {
      "epoch": 0.8411214953271028,
      "grad_norm": 0.006293443962931633,
      "learning_rate": 8.181970587176814e-06,
      "loss": 0.0003692630911245942,
      "memory(GiB)": 160.86,
      "step": 2295,
      "token_acc": 0.9997475809844342,
      "train_speed(iter/s)": 0.03652
    },
    {
      "epoch": 0.8429540040315191,
      "grad_norm": 0.006763943005353212,
      "learning_rate": 8.174562141200878e-06,
      "loss": 0.0002094252035021782,
      "memory(GiB)": 160.86,
      "step": 2300,
      "token_acc": 0.9999158036541214,
      "train_speed(iter/s)": 0.036535
    },
    {
      "epoch": 0.8447865127359355,
      "grad_norm": 0.04695817828178406,
      "learning_rate": 8.167142000440749e-06,
      "loss": 0.0005172740202397108,
      "memory(GiB)": 160.86,
      "step": 2305,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.036551
    },
    {
      "epoch": 0.8466190214403518,
      "grad_norm": 0.026909319683909416,
      "learning_rate": 8.15971019223152e-06,
      "loss": 0.00024677792098373177,
      "memory(GiB)": 160.86,
      "step": 2310,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.036567
    },
    {
      "epoch": 0.8484515301447682,
      "grad_norm": 0.0009972673142328858,
      "learning_rate": 8.152266743951264e-06,
      "loss": 0.00048431595787405967,
      "memory(GiB)": 160.86,
      "step": 2315,
      "token_acc": 0.9999157752884696,
      "train_speed(iter/s)": 0.036583
    },
    {
      "epoch": 0.8502840388491846,
      "grad_norm": 0.1550913155078888,
      "learning_rate": 8.144811683020932e-06,
      "loss": 0.00014740382321178913,
      "memory(GiB)": 160.86,
      "step": 2320,
      "token_acc": 0.9999158178297837,
      "train_speed(iter/s)": 0.036599
    },
    {
      "epoch": 0.8521165475536009,
      "grad_norm": 0.04358501732349396,
      "learning_rate": 8.13734503690426e-06,
      "loss": 0.0010699840262532235,
      "memory(GiB)": 160.86,
      "step": 2325,
      "token_acc": 0.9997474747474747,
      "train_speed(iter/s)": 0.036612
    },
    {
      "epoch": 0.8539490562580172,
      "grad_norm": 0.002750721760094166,
      "learning_rate": 8.12986683310766e-06,
      "loss": 0.0002569463336840272,
      "memory(GiB)": 160.86,
      "step": 2330,
      "token_acc": 0.9999158390843292,
      "train_speed(iter/s)": 0.036627
    },
    {
      "epoch": 0.8557815649624335,
      "grad_norm": 0.010151500813663006,
      "learning_rate": 8.12237709918012e-06,
      "loss": 0.00014050663448870183,
      "memory(GiB)": 160.86,
      "step": 2335,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.036644
    },
    {
      "epoch": 0.8576140736668499,
      "grad_norm": 0.004389213863760233,
      "learning_rate": 8.114875862713107e-06,
      "loss": 5.258661694824695e-05,
      "memory(GiB)": 160.86,
      "step": 2340,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.036659
    },
    {
      "epoch": 0.8594465823712663,
      "grad_norm": 0.004478363320231438,
      "learning_rate": 8.10736315134046e-06,
      "loss": 0.0017528504133224488,
      "memory(GiB)": 160.86,
      "step": 2345,
      "token_acc": 0.9996633846671716,
      "train_speed(iter/s)": 0.036675
    },
    {
      "epoch": 0.8612790910756826,
      "grad_norm": 0.004733589943498373,
      "learning_rate": 8.099838992738292e-06,
      "loss": 0.0013998121954500674,
      "memory(GiB)": 160.86,
      "step": 2350,
      "token_acc": 0.9994953318193288,
      "train_speed(iter/s)": 0.03669
    },
    {
      "epoch": 0.863111599780099,
      "grad_norm": 0.00977323018014431,
      "learning_rate": 8.092303414624884e-06,
      "loss": 0.00046326019801199434,
      "memory(GiB)": 160.86,
      "step": 2355,
      "token_acc": 0.9998316781686585,
      "train_speed(iter/s)": 0.036705
    },
    {
      "epoch": 0.8649441084845153,
      "grad_norm": 0.04947784170508385,
      "learning_rate": 8.08475644476059e-06,
      "loss": 0.0001862859120592475,
      "memory(GiB)": 160.86,
      "step": 2360,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.036721
    },
    {
      "epoch": 0.8667766171889316,
      "grad_norm": 0.21693383157253265,
      "learning_rate": 8.077198110947725e-06,
      "loss": 0.0009612908586859703,
      "memory(GiB)": 160.86,
      "step": 2365,
      "token_acc": 0.9998316923335858,
      "train_speed(iter/s)": 0.036737
    },
    {
      "epoch": 0.868609125893348,
      "grad_norm": 0.023295719176530838,
      "learning_rate": 8.069628441030472e-06,
      "loss": 0.0004069589078426361,
      "memory(GiB)": 160.86,
      "step": 2370,
      "token_acc": 0.9998315931289997,
      "train_speed(iter/s)": 0.036697
    },
    {
      "epoch": 0.8704416345977644,
      "grad_norm": 0.06745916604995728,
      "learning_rate": 8.062047462894771e-06,
      "loss": 0.0006006782408803701,
      "memory(GiB)": 160.86,
      "step": 2375,
      "token_acc": 0.9998315931289997,
      "train_speed(iter/s)": 0.036712
    },
    {
      "epoch": 0.8722741433021807,
      "grad_norm": 0.05341252312064171,
      "learning_rate": 8.054455204468225e-06,
      "loss": 0.000835646316409111,
      "memory(GiB)": 160.86,
      "step": 2380,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.036728
    },
    {
      "epoch": 0.874106652006597,
      "grad_norm": 0.01815791241824627,
      "learning_rate": 8.046851693719986e-06,
      "loss": 0.00021557288710027933,
      "memory(GiB)": 160.86,
      "step": 2385,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.036743
    },
    {
      "epoch": 0.8759391607110134,
      "grad_norm": 0.0018982563633471727,
      "learning_rate": 8.039236958660666e-06,
      "loss": 0.00010541609954088927,
      "memory(GiB)": 160.86,
      "step": 2390,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.036759
    },
    {
      "epoch": 0.8777716694154297,
      "grad_norm": 0.0008025880670174956,
      "learning_rate": 8.031611027342221e-06,
      "loss": 0.00029539645183831455,
      "memory(GiB)": 160.86,
      "step": 2395,
      "token_acc": 0.9998317631224765,
      "train_speed(iter/s)": 0.036774
    },
    {
      "epoch": 0.879604178119846,
      "grad_norm": 0.02493736520409584,
      "learning_rate": 8.023973927857857e-06,
      "loss": 0.0010729983448982238,
      "memory(GiB)": 160.86,
      "step": 2400,
      "token_acc": 0.9997475172529877,
      "train_speed(iter/s)": 0.036789
    },
    {
      "epoch": 0.8814366868242625,
      "grad_norm": 0.23594622313976288,
      "learning_rate": 8.016325688341919e-06,
      "loss": 0.0005186852067708969,
      "memory(GiB)": 160.86,
      "step": 2405,
      "token_acc": 0.9998316923335858,
      "train_speed(iter/s)": 0.036805
    },
    {
      "epoch": 0.8832691955286788,
      "grad_norm": 0.014162681996822357,
      "learning_rate": 8.00866633696979e-06,
      "loss": 0.00019059464102610946,
      "memory(GiB)": 160.86,
      "step": 2410,
      "token_acc": 0.9999158390843292,
      "train_speed(iter/s)": 0.03682
    },
    {
      "epoch": 0.8851017042330951,
      "grad_norm": 0.04650455340743065,
      "learning_rate": 8.000995901957792e-06,
      "loss": 0.0004015204031020403,
      "memory(GiB)": 160.86,
      "step": 2415,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.036835
    },
    {
      "epoch": 0.8869342129375114,
      "grad_norm": 0.04503090679645538,
      "learning_rate": 7.993314411563075e-06,
      "loss": 0.0006881221663206816,
      "memory(GiB)": 160.86,
      "step": 2420,
      "token_acc": 0.9997475172529877,
      "train_speed(iter/s)": 0.03685
    },
    {
      "epoch": 0.8887667216419278,
      "grad_norm": 0.008592194877564907,
      "learning_rate": 7.98562189408352e-06,
      "loss": 0.0002544657327234745,
      "memory(GiB)": 160.86,
      "step": 2425,
      "token_acc": 0.9999158107425492,
      "train_speed(iter/s)": 0.036865
    },
    {
      "epoch": 0.8905992303463441,
      "grad_norm": 0.04029720276594162,
      "learning_rate": 7.977918377857625e-06,
      "loss": 0.0004797634668648243,
      "memory(GiB)": 160.86,
      "step": 2430,
      "token_acc": 0.9998316498316498,
      "train_speed(iter/s)": 0.03688
    },
    {
      "epoch": 0.8924317390507605,
      "grad_norm": 0.012428953312337399,
      "learning_rate": 7.970203891264408e-06,
      "loss": 0.00046463338658213614,
      "memory(GiB)": 160.86,
      "step": 2435,
      "token_acc": 0.9998317631224765,
      "train_speed(iter/s)": 0.036895
    },
    {
      "epoch": 0.8942642477551769,
      "grad_norm": 0.1128624677658081,
      "learning_rate": 7.962478462723306e-06,
      "loss": 0.000577373243868351,
      "memory(GiB)": 160.86,
      "step": 2440,
      "token_acc": 0.9998316214850985,
      "train_speed(iter/s)": 0.03691
    },
    {
      "epoch": 0.8960967564595932,
      "grad_norm": 0.005943561438471079,
      "learning_rate": 7.954742120694059e-06,
      "loss": 0.0005296251736581325,
      "memory(GiB)": 160.86,
      "step": 2445,
      "token_acc": 0.9998317489694625,
      "train_speed(iter/s)": 0.036925
    },
    {
      "epoch": 0.8979292651640095,
      "grad_norm": 0.014219972304999828,
      "learning_rate": 7.946994893676611e-06,
      "loss": 5.174783291295171e-05,
      "memory(GiB)": 160.86,
      "step": 2450,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.03694
    },
    {
      "epoch": 0.8997617738684259,
      "grad_norm": 0.01472583319991827,
      "learning_rate": 7.93923681021101e-06,
      "loss": 0.0009220579639077186,
      "memory(GiB)": 160.86,
      "step": 2455,
      "token_acc": 0.9996634413125789,
      "train_speed(iter/s)": 0.036954
    },
    {
      "epoch": 0.9015942825728422,
      "grad_norm": 0.0020888156723231077,
      "learning_rate": 7.931467898877298e-06,
      "loss": 0.0004309060052037239,
      "memory(GiB)": 160.86,
      "step": 2460,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.036969
    },
    {
      "epoch": 0.9034267912772586,
      "grad_norm": 0.054128147661685944,
      "learning_rate": 7.9236881882954e-06,
      "loss": 0.00036832981277257204,
      "memory(GiB)": 160.86,
      "step": 2465,
      "token_acc": 0.9999157752884696,
      "train_speed(iter/s)": 0.036983
    },
    {
      "epoch": 0.9052592999816749,
      "grad_norm": 0.009187346324324608,
      "learning_rate": 7.915897707125027e-06,
      "loss": 0.0009874864481389523,
      "memory(GiB)": 160.86,
      "step": 2470,
      "token_acc": 0.9996633280026934,
      "train_speed(iter/s)": 0.036998
    },
    {
      "epoch": 0.9070918086860913,
      "grad_norm": 0.015212767757475376,
      "learning_rate": 7.908096484065569e-06,
      "loss": 0.00035822123754769564,
      "memory(GiB)": 160.86,
      "step": 2475,
      "token_acc": 0.9998317206562894,
      "train_speed(iter/s)": 0.037012
    },
    {
      "epoch": 0.9089243173905076,
      "grad_norm": 0.028434082865715027,
      "learning_rate": 7.900284547855992e-06,
      "loss": 0.00033626847434788945,
      "memory(GiB)": 160.86,
      "step": 2480,
      "token_acc": 0.9999158178297837,
      "train_speed(iter/s)": 0.037027
    },
    {
      "epoch": 0.9107568260949239,
      "grad_norm": 0.003858706448227167,
      "learning_rate": 7.892461927274719e-06,
      "loss": 0.00038427968975156545,
      "memory(GiB)": 160.86,
      "step": 2485,
      "token_acc": 0.9998316923335858,
      "train_speed(iter/s)": 0.037041
    },
    {
      "epoch": 0.9125893347993403,
      "grad_norm": 0.028237823396921158,
      "learning_rate": 7.884628651139543e-06,
      "loss": 0.0008647294715046882,
      "memory(GiB)": 160.86,
      "step": 2490,
      "token_acc": 0.9995789119083712,
      "train_speed(iter/s)": 0.037056
    },
    {
      "epoch": 0.9144218435037567,
      "grad_norm": 0.014561748132109642,
      "learning_rate": 7.876784748307502e-06,
      "loss": 8.994525414891541e-05,
      "memory(GiB)": 160.86,
      "step": 2495,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.03707
    },
    {
      "epoch": 0.916254352208173,
      "grad_norm": 0.011074830777943134,
      "learning_rate": 7.868930247674787e-06,
      "loss": 0.0002087874570861459,
      "memory(GiB)": 160.86,
      "step": 2500,
      "token_acc": 0.9999158107425492,
      "train_speed(iter/s)": 0.037084
    },
    {
      "epoch": 0.916254352208173,
      "eval_loss": 0.0007594987982884049,
      "eval_runtime": 172.1874,
      "eval_samples_per_second": 2.555,
      "eval_steps_per_second": 2.555,
      "eval_token_acc": 0.9997704421284606,
      "step": 2500
    },
    {
      "epoch": 0.9180868609125893,
      "grad_norm": 0.04182349890470505,
      "learning_rate": 7.86106517817663e-06,
      "loss": 0.00022406417410820724,
      "memory(GiB)": 160.86,
      "step": 2505,
      "token_acc": 0.9997928078422231,
      "train_speed(iter/s)": 0.036773
    },
    {
      "epoch": 0.9199193696170057,
      "grad_norm": 0.010813858360052109,
      "learning_rate": 7.8531895687872e-06,
      "loss": 0.0001518705626949668,
      "memory(GiB)": 160.86,
      "step": 2510,
      "token_acc": 0.9999158603281447,
      "train_speed(iter/s)": 0.036788
    },
    {
      "epoch": 0.921751878321422,
      "grad_norm": 4.607898881658912e-05,
      "learning_rate": 7.845303448519486e-06,
      "loss": 0.0005594564136117697,
      "memory(GiB)": 160.86,
      "step": 2515,
      "token_acc": 0.9997474747474747,
      "train_speed(iter/s)": 0.036802
    },
    {
      "epoch": 0.9235843870258383,
      "grad_norm": 0.059696584939956665,
      "learning_rate": 7.837406846425205e-06,
      "loss": 0.0005560083314776421,
      "memory(GiB)": 160.86,
      "step": 2520,
      "token_acc": 0.9994947368421052,
      "train_speed(iter/s)": 0.036817
    },
    {
      "epoch": 0.9254168957302548,
      "grad_norm": 0.1952117681503296,
      "learning_rate": 7.829499791594684e-06,
      "loss": 0.0007309889886528253,
      "memory(GiB)": 160.86,
      "step": 2525,
      "token_acc": 0.9998315931289997,
      "train_speed(iter/s)": 0.036831
    },
    {
      "epoch": 0.9272494044346711,
      "grad_norm": 0.005678711924701929,
      "learning_rate": 7.821582313156763e-06,
      "loss": 0.00012894930550828577,
      "memory(GiB)": 160.86,
      "step": 2530,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.036845
    },
    {
      "epoch": 0.9290819131390874,
      "grad_norm": 0.0016558946808800101,
      "learning_rate": 7.813654440278677e-06,
      "loss": 0.0004136775154620409,
      "memory(GiB)": 160.86,
      "step": 2535,
      "token_acc": 0.9998317206562894,
      "train_speed(iter/s)": 0.036859
    },
    {
      "epoch": 0.9309144218435037,
      "grad_norm": 0.0007809648523107171,
      "learning_rate": 7.805716202165949e-06,
      "loss": 4.669466288760304e-05,
      "memory(GiB)": 160.86,
      "step": 2540,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.036873
    },
    {
      "epoch": 0.9327469305479201,
      "grad_norm": 0.0005511490162461996,
      "learning_rate": 7.797767628062296e-06,
      "loss": 2.539183187764138e-05,
      "memory(GiB)": 160.86,
      "step": 2545,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.036887
    },
    {
      "epoch": 0.9345794392523364,
      "grad_norm": 0.008907792158424854,
      "learning_rate": 7.789808747249505e-06,
      "loss": 8.047035662457347e-05,
      "memory(GiB)": 160.86,
      "step": 2550,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.036901
    },
    {
      "epoch": 0.9364119479567528,
      "grad_norm": 0.16766001284122467,
      "learning_rate": 7.781839589047336e-06,
      "loss": 0.001341984234750271,
      "memory(GiB)": 160.86,
      "step": 2555,
      "token_acc": 0.9997474960020201,
      "train_speed(iter/s)": 0.036915
    },
    {
      "epoch": 0.9382444566611692,
      "grad_norm": 0.0007593165501020849,
      "learning_rate": 7.773860182813404e-06,
      "loss": 6.514263805001974e-05,
      "memory(GiB)": 160.86,
      "step": 2560,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.036929
    },
    {
      "epoch": 0.9400769653655855,
      "grad_norm": 0.02255651168525219,
      "learning_rate": 7.765870557943083e-06,
      "loss": 0.0009576915763318539,
      "memory(GiB)": 160.86,
      "step": 2565,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.036943
    },
    {
      "epoch": 0.9419094740700018,
      "grad_norm": 0.04713983088731766,
      "learning_rate": 7.75787074386939e-06,
      "loss": 0.0006936299148947,
      "memory(GiB)": 160.86,
      "step": 2570,
      "token_acc": 0.9997474322276477,
      "train_speed(iter/s)": 0.036957
    },
    {
      "epoch": 0.9437419827744182,
      "grad_norm": 0.038788143545389175,
      "learning_rate": 7.749860770062874e-06,
      "loss": 0.0007801173254847526,
      "memory(GiB)": 160.86,
      "step": 2575,
      "token_acc": 0.9998316073082428,
      "train_speed(iter/s)": 0.036971
    },
    {
      "epoch": 0.9455744914788345,
      "grad_norm": 0.026828216388821602,
      "learning_rate": 7.741840666031517e-06,
      "loss": 0.0009264941327273846,
      "memory(GiB)": 160.86,
      "step": 2580,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.036984
    },
    {
      "epoch": 0.9474070001832509,
      "grad_norm": 0.03660447522997856,
      "learning_rate": 7.733810461320619e-06,
      "loss": 0.0004160061478614807,
      "memory(GiB)": 160.86,
      "step": 2585,
      "token_acc": 0.9998317064961293,
      "train_speed(iter/s)": 0.036998
    },
    {
      "epoch": 0.9492395088876672,
      "grad_norm": 0.004005759488791227,
      "learning_rate": 7.725770185512685e-06,
      "loss": 0.00036098186392337085,
      "memory(GiB)": 160.86,
      "step": 2590,
      "token_acc": 0.9999157752884696,
      "train_speed(iter/s)": 0.037012
    },
    {
      "epoch": 0.9510720175920836,
      "grad_norm": 0.0006123992498032749,
      "learning_rate": 7.717719868227327e-06,
      "loss": 0.0003307197941467166,
      "memory(GiB)": 160.86,
      "step": 2595,
      "token_acc": 0.9999158320006734,
      "train_speed(iter/s)": 0.037025
    },
    {
      "epoch": 0.9529045262964999,
      "grad_norm": 0.029207419604063034,
      "learning_rate": 7.709659539121144e-06,
      "loss": 7.62599753215909e-05,
      "memory(GiB)": 160.86,
      "step": 2600,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.037039
    },
    {
      "epoch": 0.9547370350009162,
      "grad_norm": 0.03443612530827522,
      "learning_rate": 7.70158922788762e-06,
      "loss": 0.00035016366746276617,
      "memory(GiB)": 160.86,
      "step": 2605,
      "token_acc": 0.9999158461667929,
      "train_speed(iter/s)": 0.037052
    },
    {
      "epoch": 0.9565695437053326,
      "grad_norm": 0.020582979544997215,
      "learning_rate": 7.693508964257015e-06,
      "loss": 0.0006867663934826851,
      "memory(GiB)": 160.86,
      "step": 2610,
      "token_acc": 0.9999158320006734,
      "train_speed(iter/s)": 0.037066
    },
    {
      "epoch": 0.958402052409749,
      "grad_norm": 0.010320069268345833,
      "learning_rate": 7.685418777996245e-06,
      "loss": 0.0002992436056956649,
      "memory(GiB)": 160.86,
      "step": 2615,
      "token_acc": 0.9998317064961293,
      "train_speed(iter/s)": 0.037079
    },
    {
      "epoch": 0.9602345611141653,
      "grad_norm": 0.06350167840719223,
      "learning_rate": 7.677318698908788e-06,
      "loss": 0.0014985553920269013,
      "memory(GiB)": 160.86,
      "step": 2620,
      "token_acc": 0.9995792662403231,
      "train_speed(iter/s)": 0.037092
    },
    {
      "epoch": 0.9620670698185816,
      "grad_norm": 0.0018099630251526833,
      "learning_rate": 7.669208756834563e-06,
      "loss": 0.0006455457769334316,
      "memory(GiB)": 160.86,
      "step": 2625,
      "token_acc": 0.9997474109623642,
      "train_speed(iter/s)": 0.037106
    },
    {
      "epoch": 0.963899578522998,
      "grad_norm": 0.02232094667851925,
      "learning_rate": 7.66108898164982e-06,
      "loss": 0.0005441450979560613,
      "memory(GiB)": 160.86,
      "step": 2630,
      "token_acc": 0.9998316923335858,
      "train_speed(iter/s)": 0.037119
    },
    {
      "epoch": 0.9657320872274143,
      "grad_norm": 0.08803337812423706,
      "learning_rate": 7.65295940326704e-06,
      "loss": 0.00035574983339756725,
      "memory(GiB)": 160.86,
      "step": 2635,
      "token_acc": 0.9998316498316498,
      "train_speed(iter/s)": 0.037132
    },
    {
      "epoch": 0.9675645959318306,
      "grad_norm": 0.003819872625172138,
      "learning_rate": 7.644820051634813e-06,
      "loss": 0.0005564328283071518,
      "memory(GiB)": 160.86,
      "step": 2640,
      "token_acc": 0.9998315363881402,
      "train_speed(iter/s)": 0.037146
    },
    {
      "epoch": 0.9693971046362471,
      "grad_norm": 0.012264705263078213,
      "learning_rate": 7.636670956737735e-06,
      "loss": 0.0008389626629650593,
      "memory(GiB)": 160.86,
      "step": 2645,
      "token_acc": 0.9995793016407236,
      "train_speed(iter/s)": 0.037159
    },
    {
      "epoch": 0.9712296133406634,
      "grad_norm": 0.012444542720913887,
      "learning_rate": 7.628512148596292e-06,
      "loss": 0.0002988637425005436,
      "memory(GiB)": 160.86,
      "step": 2650,
      "token_acc": 0.9999158178297837,
      "train_speed(iter/s)": 0.037172
    },
    {
      "epoch": 0.9730621220450797,
      "grad_norm": 0.04613952711224556,
      "learning_rate": 7.620343657266758e-06,
      "loss": 0.0006712310016155243,
      "memory(GiB)": 160.86,
      "step": 2655,
      "token_acc": 0.9997473896934995,
      "train_speed(iter/s)": 0.037185
    },
    {
      "epoch": 0.974894630749496,
      "grad_norm": 0.009678124450147152,
      "learning_rate": 7.612165512841076e-06,
      "loss": 0.0002654188079759479,
      "memory(GiB)": 160.86,
      "step": 2660,
      "token_acc": 0.9999158320006734,
      "train_speed(iter/s)": 0.037198
    },
    {
      "epoch": 0.9767271394539124,
      "grad_norm": 0.10645924508571625,
      "learning_rate": 7.603977745446749e-06,
      "loss": 0.0006820098031312227,
      "memory(GiB)": 160.86,
      "step": 2665,
      "token_acc": 0.999578947368421,
      "train_speed(iter/s)": 0.037212
    },
    {
      "epoch": 0.9785596481583287,
      "grad_norm": 0.052510544657707214,
      "learning_rate": 7.595780385246729e-06,
      "loss": 0.000298806675709784,
      "memory(GiB)": 160.86,
      "step": 2670,
      "token_acc": 0.9997474747474747,
      "train_speed(iter/s)": 0.037225
    },
    {
      "epoch": 0.9803921568627451,
      "grad_norm": 0.010894379578530788,
      "learning_rate": 7.587573462439315e-06,
      "loss": 0.0006402578670531512,
      "memory(GiB)": 160.86,
      "step": 2675,
      "token_acc": 0.9996632996632997,
      "train_speed(iter/s)": 0.037237
    },
    {
      "epoch": 0.9822246655671615,
      "grad_norm": 0.04109283536672592,
      "learning_rate": 7.579357007258022e-06,
      "loss": 0.0008437959477305412,
      "memory(GiB)": 160.86,
      "step": 2680,
      "token_acc": 0.9997474534893509,
      "train_speed(iter/s)": 0.03725
    },
    {
      "epoch": 0.9840571742715778,
      "grad_norm": 0.005569992121309042,
      "learning_rate": 7.571131049971492e-06,
      "loss": 0.00014509292086586356,
      "memory(GiB)": 160.86,
      "step": 2685,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.037263
    },
    {
      "epoch": 0.9858896829759941,
      "grad_norm": 0.03271030634641647,
      "learning_rate": 7.562895620883364e-06,
      "loss": 0.0003884633770212531,
      "memory(GiB)": 160.86,
      "step": 2690,
      "token_acc": 0.9999158320006734,
      "train_speed(iter/s)": 0.037276
    },
    {
      "epoch": 0.9877221916804105,
      "grad_norm": 0.01711997203528881,
      "learning_rate": 7.554650750332175e-06,
      "loss": 0.0009255507960915565,
      "memory(GiB)": 160.86,
      "step": 2695,
      "token_acc": 0.9998315647633484,
      "train_speed(iter/s)": 0.037289
    },
    {
      "epoch": 0.9895547003848268,
      "grad_norm": 0.02630673162639141,
      "learning_rate": 7.546396468691241e-06,
      "loss": 0.0005463588051497937,
      "memory(GiB)": 160.86,
      "step": 2700,
      "token_acc": 0.9998316214850985,
      "train_speed(iter/s)": 0.037302
    },
    {
      "epoch": 0.9913872090892432,
      "grad_norm": 0.005354244727641344,
      "learning_rate": 7.53813280636855e-06,
      "loss": 0.000519955437630415,
      "memory(GiB)": 160.86,
      "step": 2705,
      "token_acc": 0.9999157823816742,
      "train_speed(iter/s)": 0.037314
    },
    {
      "epoch": 0.9932197177936595,
      "grad_norm": 0.028666380792856216,
      "learning_rate": 7.5298597938066446e-06,
      "loss": 0.0007598635274916887,
      "memory(GiB)": 160.86,
      "step": 2710,
      "token_acc": 0.9997474747474747,
      "train_speed(iter/s)": 0.037327
    },
    {
      "epoch": 0.9950522264980759,
      "grad_norm": 0.027820078656077385,
      "learning_rate": 7.5215774614825144e-06,
      "loss": 0.00038032070733606815,
      "memory(GiB)": 160.86,
      "step": 2715,
      "token_acc": 0.9998315931289997,
      "train_speed(iter/s)": 0.037339
    },
    {
      "epoch": 0.9968847352024922,
      "grad_norm": 0.03211966156959534,
      "learning_rate": 7.51328583990748e-06,
      "loss": 0.0006773354019969702,
      "memory(GiB)": 160.86,
      "step": 2720,
      "token_acc": 0.9996630443939011,
      "train_speed(iter/s)": 0.037349
    },
    {
      "epoch": 0.9987172439069085,
      "grad_norm": 0.008736282587051392,
      "learning_rate": 7.504984959627089e-06,
      "loss": 0.0001820398378185928,
      "memory(GiB)": 160.86,
      "step": 2725,
      "token_acc": 0.9999157894736842,
      "train_speed(iter/s)": 0.037362
    },
    {
      "epoch": 1.0003665017408834,
      "grad_norm": 0.04173569008708,
      "learning_rate": 7.4966748512209884e-06,
      "loss": 0.00037901154719293116,
      "memory(GiB)": 160.86,
      "step": 2730,
      "token_acc": 0.9998129267608269,
      "train_speed(iter/s)": 0.037379
    },
    {
      "epoch": 1.0021990104452996,
      "grad_norm": 0.002946143504232168,
      "learning_rate": 7.488355545302829e-06,
      "loss": 0.00021834177896380426,
      "memory(GiB)": 160.86,
      "step": 2735,
      "token_acc": 0.9999157965644998,
      "train_speed(iter/s)": 0.037391
    },
    {
      "epoch": 1.004031519149716,
      "grad_norm": 0.020436054095625877,
      "learning_rate": 7.480027072520137e-06,
      "loss": 0.0004638895858079195,
      "memory(GiB)": 160.86,
      "step": 2740,
      "token_acc": 0.9998317206562894,
      "train_speed(iter/s)": 0.037403
    },
    {
      "epoch": 1.0058640278541322,
      "grad_norm": 0.00012372307537589222,
      "learning_rate": 7.471689463554212e-06,
      "loss": 0.00014013800537213684,
      "memory(GiB)": 160.86,
      "step": 2745,
      "token_acc": 0.9999158320006734,
      "train_speed(iter/s)": 0.037415
    },
    {
      "epoch": 1.0076965365585486,
      "grad_norm": 0.10363256931304932,
      "learning_rate": 7.463342749120014e-06,
      "loss": 0.0012814832851290702,
      "memory(GiB)": 160.86,
      "step": 2750,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.037427
    },
    {
      "epoch": 1.009529045262965,
      "grad_norm": 0.0360257662832737,
      "learning_rate": 7.454986959966038e-06,
      "loss": 0.0002859779866412282,
      "memory(GiB)": 160.86,
      "step": 2755,
      "token_acc": 0.9998315363881402,
      "train_speed(iter/s)": 0.037439
    },
    {
      "epoch": 1.0113615539673813,
      "grad_norm": 0.0018664754461497068,
      "learning_rate": 7.446622126874219e-06,
      "loss": 0.0011785308830440044,
      "memory(GiB)": 160.86,
      "step": 2760,
      "token_acc": 0.999663129526697,
      "train_speed(iter/s)": 0.037451
    },
    {
      "epoch": 1.0131940626717977,
      "grad_norm": 0.03385569900274277,
      "learning_rate": 7.438248280659801e-06,
      "loss": 0.00015975049464032054,
      "memory(GiB)": 160.86,
      "step": 2765,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.037463
    },
    {
      "epoch": 1.015026571376214,
      "grad_norm": 0.017654770985245705,
      "learning_rate": 7.4298654521712364e-06,
      "loss": 0.0003454319899901748,
      "memory(GiB)": 160.86,
      "step": 2770,
      "token_acc": 0.9999158178297837,
      "train_speed(iter/s)": 0.037475
    },
    {
      "epoch": 1.0168590800806303,
      "grad_norm": 0.05392535775899887,
      "learning_rate": 7.4214736722900675e-06,
      "loss": 0.0005449390038847924,
      "memory(GiB)": 160.86,
      "step": 2775,
      "token_acc": 0.9997476022211005,
      "train_speed(iter/s)": 0.037487
    },
    {
      "epoch": 1.0186915887850467,
      "grad_norm": 0.004342063330113888,
      "learning_rate": 7.413072971930807e-06,
      "loss": 0.0007950126193463803,
      "memory(GiB)": 160.86,
      "step": 2780,
      "token_acc": 0.9998315647633484,
      "train_speed(iter/s)": 0.037499
    },
    {
      "epoch": 1.0205240974894632,
      "grad_norm": 0.00310046155937016,
      "learning_rate": 7.404663382040838e-06,
      "loss": 0.0002729130210354924,
      "memory(GiB)": 160.86,
      "step": 2785,
      "token_acc": 0.9999158532480646,
      "train_speed(iter/s)": 0.03751
    },
    {
      "epoch": 1.0223566061938794,
      "grad_norm": 0.0021550292149186134,
      "learning_rate": 7.396244933600285e-06,
      "loss": 0.00016694137593731284,
      "memory(GiB)": 160.86,
      "step": 2790,
      "token_acc": 0.9999158603281447,
      "train_speed(iter/s)": 0.037522
    },
    {
      "epoch": 1.0241891148982958,
      "grad_norm": 0.000986380036920309,
      "learning_rate": 7.387817657621911e-06,
      "loss": 0.00015597309684380888,
      "memory(GiB)": 160.86,
      "step": 2795,
      "token_acc": 0.9999158744847312,
      "train_speed(iter/s)": 0.037533
    },
    {
      "epoch": 1.0260216236027122,
      "grad_norm": 0.001334765343926847,
      "learning_rate": 7.379381585150997e-06,
      "loss": 2.5839175214059652e-05,
      "memory(GiB)": 160.86,
      "step": 2800,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.037545
    },
    {
      "epoch": 1.0278541323071284,
      "grad_norm": 0.0036596362479031086,
      "learning_rate": 7.370936747265226e-06,
      "loss": 0.00017838862258940936,
      "memory(GiB)": 160.86,
      "step": 2805,
      "token_acc": 0.9999157752884696,
      "train_speed(iter/s)": 0.037557
    },
    {
      "epoch": 1.0296866410115448,
      "grad_norm": 0.04679948464035988,
      "learning_rate": 7.36248317507458e-06,
      "loss": 9.25394706428051e-05,
      "memory(GiB)": 160.86,
      "step": 2810,
      "token_acc": 0.9999157256025619,
      "train_speed(iter/s)": 0.037568
    },
    {
      "epoch": 1.0315191497159613,
      "grad_norm": 0.014712713658809662,
      "learning_rate": 7.35402089972121e-06,
      "loss": 0.00011562753934413195,
      "memory(GiB)": 160.86,
      "step": 2815,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.03758
    },
    {
      "epoch": 1.0333516584203775,
      "grad_norm": 2.521344504202716e-05,
      "learning_rate": 7.345549952379334e-06,
      "loss": 3.463000466581434e-05,
      "memory(GiB)": 160.86,
      "step": 2820,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.037592
    },
    {
      "epoch": 1.0351841671247939,
      "grad_norm": 0.24957123398780823,
      "learning_rate": 7.337070364255112e-06,
      "loss": 0.0008360546082258225,
      "memory(GiB)": 160.86,
      "step": 2825,
      "token_acc": 0.9996632713191346,
      "train_speed(iter/s)": 0.037604
    },
    {
      "epoch": 1.03701667582921,
      "grad_norm": 0.21494735777378082,
      "learning_rate": 7.32858216658654e-06,
      "loss": 0.0008594411425292492,
      "memory(GiB)": 160.86,
      "step": 2830,
      "token_acc": 0.9999158532480646,
      "train_speed(iter/s)": 0.037615
    },
    {
      "epoch": 1.0388491845336265,
      "grad_norm": 0.008956658653914928,
      "learning_rate": 7.320085390643326e-06,
      "loss": 0.00030957753770053385,
      "memory(GiB)": 160.86,
      "step": 2835,
      "token_acc": 0.9999158532480646,
      "train_speed(iter/s)": 0.037627
    },
    {
      "epoch": 1.040681693238043,
      "grad_norm": 0.002504108939319849,
      "learning_rate": 7.311580067726783e-06,
      "loss": 0.000167914351914078,
      "memory(GiB)": 160.86,
      "step": 2840,
      "token_acc": 0.9999158886365548,
      "train_speed(iter/s)": 0.037638
    },
    {
      "epoch": 1.0425142019424591,
      "grad_norm": 0.0135150495916605,
      "learning_rate": 7.3030662291697105e-06,
      "loss": 4.5498591498471795e-05,
      "memory(GiB)": 160.86,
      "step": 2845,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.03765
    },
    {
      "epoch": 1.0443467106468756,
      "grad_norm": 0.002792476676404476,
      "learning_rate": 7.294543906336279e-06,
      "loss": 0.000167688459623605,
      "memory(GiB)": 160.86,
      "step": 2850,
      "token_acc": 0.9999157823816742,
      "train_speed(iter/s)": 0.037661
    },
    {
      "epoch": 1.046179219351292,
      "grad_norm": 0.04909972473978996,
      "learning_rate": 7.28601313062191e-06,
      "loss": 0.000728160934522748,
      "memory(GiB)": 160.86,
      "step": 2855,
      "token_acc": 0.9996635545462192,
      "train_speed(iter/s)": 0.037672
    },
    {
      "epoch": 1.0480117280557082,
      "grad_norm": 0.002446983242407441,
      "learning_rate": 7.27747393345317e-06,
      "loss": 0.0003103788709267974,
      "memory(GiB)": 160.86,
      "step": 2860,
      "token_acc": 0.9998317206562894,
      "train_speed(iter/s)": 0.037684
    },
    {
      "epoch": 1.0498442367601246,
      "grad_norm": 0.005002601537853479,
      "learning_rate": 7.268926346287647e-06,
      "loss": 0.000590520678088069,
      "memory(GiB)": 160.86,
      "step": 2865,
      "token_acc": 0.9998316781686585,
      "train_speed(iter/s)": 0.037695
    },
    {
      "epoch": 1.051676745464541,
      "grad_norm": 0.0063280281610786915,
      "learning_rate": 7.2603704006138365e-06,
      "loss": 0.0006456949282437563,
      "memory(GiB)": 160.86,
      "step": 2870,
      "token_acc": 0.9997474109623642,
      "train_speed(iter/s)": 0.037707
    },
    {
      "epoch": 1.0535092541689572,
      "grad_norm": 0.005347462370991707,
      "learning_rate": 7.251806127951025e-06,
      "loss": 0.00015139146707952023,
      "memory(GiB)": 160.86,
      "step": 2875,
      "token_acc": 0.9999158320006734,
      "train_speed(iter/s)": 0.037718
    },
    {
      "epoch": 1.0553417628733737,
      "grad_norm": 0.005681968294084072,
      "learning_rate": 7.243233559849179e-06,
      "loss": 0.00019556223414838315,
      "memory(GiB)": 160.86,
      "step": 2880,
      "token_acc": 0.9999158320006734,
      "train_speed(iter/s)": 0.037729
    },
    {
      "epoch": 1.05717427157779,
      "grad_norm": 0.0017381316283717752,
      "learning_rate": 7.234652727888819e-06,
      "loss": 0.0006761848460882902,
      "memory(GiB)": 160.86,
      "step": 2885,
      "token_acc": 0.9998316498316498,
      "train_speed(iter/s)": 0.03774
    },
    {
      "epoch": 1.0590067802822063,
      "grad_norm": 0.012453123927116394,
      "learning_rate": 7.226063663680915e-06,
      "loss": 0.0005378074944019318,
      "memory(GiB)": 160.86,
      "step": 2890,
      "token_acc": 0.999663356337317,
      "train_speed(iter/s)": 0.037751
    },
    {
      "epoch": 1.0608392889866227,
      "grad_norm": 0.026770737022161484,
      "learning_rate": 7.217466398866757e-06,
      "loss": 0.0007396583911031485,
      "memory(GiB)": 160.86,
      "step": 2895,
      "token_acc": 0.9997474534893509,
      "train_speed(iter/s)": 0.037762
    },
    {
      "epoch": 1.062671797691039,
      "grad_norm": 0.13343772292137146,
      "learning_rate": 7.2088609651178505e-06,
      "loss": 0.0006303425878286361,
      "memory(GiB)": 160.86,
      "step": 2900,
      "token_acc": 0.9997473045822103,
      "train_speed(iter/s)": 0.037773
    },
    {
      "epoch": 1.0645043063954553,
      "grad_norm": 0.04957849159836769,
      "learning_rate": 7.200247394135793e-06,
      "loss": 0.0002914240350946784,
      "memory(GiB)": 160.86,
      "step": 2905,
      "token_acc": 0.9999157894736842,
      "train_speed(iter/s)": 0.037784
    },
    {
      "epoch": 1.0663368150998718,
      "grad_norm": 0.0030663548968732357,
      "learning_rate": 7.191625717652158e-06,
      "loss": 0.0006854488048702479,
      "memory(GiB)": 160.86,
      "step": 2910,
      "token_acc": 0.9997475597441938,
      "train_speed(iter/s)": 0.037795
    },
    {
      "epoch": 1.068169323804288,
      "grad_norm": 0.044960979372262955,
      "learning_rate": 7.18299596742838e-06,
      "loss": 0.0005464905872941018,
      "memory(GiB)": 160.86,
      "step": 2915,
      "token_acc": 0.9998315789473684,
      "train_speed(iter/s)": 0.037806
    },
    {
      "epoch": 1.0700018325087044,
      "grad_norm": 0.05764192342758179,
      "learning_rate": 7.174358175255636e-06,
      "loss": 0.0005072502885013819,
      "memory(GiB)": 160.86,
      "step": 2920,
      "token_acc": 0.9998316640013467,
      "train_speed(iter/s)": 0.037816
    },
    {
      "epoch": 1.0718343412131208,
      "grad_norm": 0.010302331298589706,
      "learning_rate": 7.1657123729547275e-06,
      "loss": 0.0011625357903540135,
      "memory(GiB)": 160.86,
      "step": 2925,
      "token_acc": 0.9999158178297837,
      "train_speed(iter/s)": 0.037827
    },
    {
      "epoch": 1.073666849917537,
      "grad_norm": 0.04408176988363266,
      "learning_rate": 7.157058592375966e-06,
      "loss": 0.0004973907489329576,
      "memory(GiB)": 160.86,
      "step": 2930,
      "token_acc": 0.9998316498316498,
      "train_speed(iter/s)": 0.037838
    },
    {
      "epoch": 1.0754993586219534,
      "grad_norm": 0.0012950595701113343,
      "learning_rate": 7.148396865399054e-06,
      "loss": 0.00015295968623831868,
      "memory(GiB)": 160.86,
      "step": 2935,
      "token_acc": 0.9999158886365548,
      "train_speed(iter/s)": 0.037849
    },
    {
      "epoch": 1.0773318673263699,
      "grad_norm": 0.032750971615314484,
      "learning_rate": 7.1397272239329684e-06,
      "loss": 0.0010722282342612744,
      "memory(GiB)": 160.86,
      "step": 2940,
      "token_acc": 0.999663242970197,
      "train_speed(iter/s)": 0.03786
    },
    {
      "epoch": 1.079164376030786,
      "grad_norm": 0.0168730691075325,
      "learning_rate": 7.131049699915842e-06,
      "loss": 7.366950740106404e-05,
      "memory(GiB)": 160.86,
      "step": 2945,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.037871
    },
    {
      "epoch": 1.0809968847352025,
      "grad_norm": 0.007587254513055086,
      "learning_rate": 7.122364325314844e-06,
      "loss": 0.0006255113985389471,
      "memory(GiB)": 160.86,
      "step": 2950,
      "token_acc": 0.9999158107425492,
      "train_speed(iter/s)": 0.037881
    },
    {
      "epoch": 1.082829393439619,
      "grad_norm": 0.0203808955848217,
      "learning_rate": 7.113671132126067e-06,
      "loss": 0.00010994931217283011,
      "memory(GiB)": 160.86,
      "step": 2955,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.037892
    },
    {
      "epoch": 1.0846619021440351,
      "grad_norm": 0.00795274693518877,
      "learning_rate": 7.104970152374405e-06,
      "loss": 0.00014865098055452108,
      "memory(GiB)": 160.86,
      "step": 2960,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.037902
    },
    {
      "epoch": 1.0864944108484516,
      "grad_norm": 0.005757440812885761,
      "learning_rate": 7.09626141811344e-06,
      "loss": 0.000553938839584589,
      "memory(GiB)": 160.86,
      "step": 2965,
      "token_acc": 0.9998316923335858,
      "train_speed(iter/s)": 0.037913
    },
    {
      "epoch": 1.088326919552868,
      "grad_norm": 0.010678775608539581,
      "learning_rate": 7.087544961425317e-06,
      "loss": 0.0004192313179373741,
      "memory(GiB)": 160.86,
      "step": 2970,
      "token_acc": 0.9999157752884696,
      "train_speed(iter/s)": 0.037924
    },
    {
      "epoch": 1.0901594282572842,
      "grad_norm": 0.0032097063958644867,
      "learning_rate": 7.078820814420629e-06,
      "loss": 0.0006281842943280935,
      "memory(GiB)": 160.86,
      "step": 2975,
      "token_acc": 0.9997473045822103,
      "train_speed(iter/s)": 0.037935
    },
    {
      "epoch": 1.0919919369617006,
      "grad_norm": 0.012336465530097485,
      "learning_rate": 7.070089009238306e-06,
      "loss": 0.000180811935570091,
      "memory(GiB)": 160.86,
      "step": 2980,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.037945
    },
    {
      "epoch": 1.093824445666117,
      "grad_norm": 0.0761614739894867,
      "learning_rate": 7.061349578045481e-06,
      "loss": 0.0011349070817232132,
      "memory(GiB)": 160.86,
      "step": 2985,
      "token_acc": 0.999578947368421,
      "train_speed(iter/s)": 0.037956
    },
    {
      "epoch": 1.0956569543705332,
      "grad_norm": 0.0008425001287832856,
      "learning_rate": 7.05260255303739e-06,
      "loss": 0.000435651745647192,
      "memory(GiB)": 160.86,
      "step": 2990,
      "token_acc": 0.9999158461667929,
      "train_speed(iter/s)": 0.037967
    },
    {
      "epoch": 1.0974894630749497,
      "grad_norm": 0.0662672221660614,
      "learning_rate": 7.043847966437235e-06,
      "loss": 0.0007866304367780685,
      "memory(GiB)": 160.86,
      "step": 2995,
      "token_acc": 0.9996635262449529,
      "train_speed(iter/s)": 0.037978
    },
    {
      "epoch": 1.0993219717793659,
      "grad_norm": 0.02012745290994644,
      "learning_rate": 7.035085850496079e-06,
      "loss": 6.958455196581781e-05,
      "memory(GiB)": 160.86,
      "step": 3000,
      "token_acc": 1.0,
      "train_speed(iter/s)": 0.037988
    },
    {
      "epoch": 1.0993219717793659,
      "eval_loss": 0.0006502080941572785,
      "eval_runtime": 172.5767,
      "eval_samples_per_second": 2.55,
      "eval_steps_per_second": 2.55,
      "eval_token_acc": 0.9997857459865632,
      "step": 3000
    }
  ],
  "logging_steps": 5,
  "max_steps": 8184,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.74067294651731e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}